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亚 
lh 


“机 器 学 习 ” 这 个 词 受到 人 们 的 关注 已 经 很 信 了 。 我 想 有 很 多 人 对 机 器 学 
习 到 底 是 什么 、 使 用 机 器 学 习 能 做 什么 等 很 感 兴趣 。 机 器 学 习 如 此 兴盛 的 背 
后 有 多 种 因素 ， 但 主要 是 因为 现在 世界 各 地 都 有 人 在 开发 机 器 学 习 专 用 的 程 
序 库 ,方便 又 多 样 的 数据 集 也 能 唾 手 可 得 。 一 个 人 即使 不 懂 理 论 知识 ， 只 要 
准备 好 程序 库 和 数据 集 ， 再 写 上 几 行 代码 就 可 以 制作 出 有 模 有 样 的 东西 。 机 
器 学 习 的 人 门 门槛 确实 降低 了 ， 我 们 可 以 一 边 自己 动手 写 一 些 代 码 ， 一 边 学 
习 机 天 学 习 。 
但 是 ， 一 直 使 用 一 个 不 知道 原理 的 “ 黑 盒 "， 大 家 的 心情 估计 不 会 太 好 
吧 。 虽 说 有 些 非常 好 用 的 库 使 人 无 须知 道理 论 就 可 以 开始 编程 ， 但 是 对 有 些 
人 ， 尤 其 是 程序 员 来 说 ,使 用 不 知道 内 部 做 了 什么 的 东西 时 总 会 感到 有 些 不 
放心 。 如 果 就 这 样 开始 学 习 机 器 学 习 ， 那 么 到 后 面 很 可 能 会 因为 太 难 而 学 不 
下 去 。 

本 书 的 读者 对 象 是 对 机 器 学 习 感 兴趣 、 想 要 学 习 其 理论 知识 的 程序 员 。 
通过 阅读 本 书 的 出 场 人 物 一 一 程序 员 绫 力 和 她 的 朋友 美 绪 的 对 话 ， 读 者 将 轻 
松 理解 机 器 学 习 的 理论 ， 并 和 她 们 一 起 学 习 下 去 。 许 多 面向 初学 者 的 书 都 会 
尽量 避免 数学 表达 式 的 出 现 ， 但 在 本 书 中 表达 式 随 处 可 见 ， 其 中 也 有 一 些 看 
起 来 有 点 难 的 表达 式 。 不 过 ， 读 了 绫 妃 和美 绪 的 对 话 后 大 家 自然 能 够 理解 表 
达 式 的 意思 。 此 外 ,为 了 帮助 那些 忘记 高 中 数学 知识 的 读者 复习 ， 本 书 在 正 
文 之 外 特别 制作 了 专门 讲解 数学 基础 知识 的 附录 ,所 以 请 大 家 不 要 担心 ， 放 
心 阅读 本 书 。 

本 书 讲解 的 基础 知识 非常 实用 ， 大 家 在 掌握 这 些 知识 之 后 ， 既 可 以 加 深 
对 程序 库 内 部 机 制 的 理解 ， 也 可 以 去 实现 机 器 学 习 的 算法 ， 还 可 以 去 阅读 最 
新 的 论文 ， 总 之 可 以 自由 尝试 各 种 实践 。 接 下 来 ， 就 让 我 们 与 绫 九 和美 绪 一 
起 开始 机 融 学 习 的 学 习 之 旅 吧 。 
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第 1 章 开始 二 人 之 旅 
将 简要 地 介绍 为 什么 机 器 学 习 越 来 越 受 人 们 的 关注 ， 以 及 使 用 机 器 学 习 
能 够 做 什么 事情 。 此 外 ， 也 会 简单 地 讲解 回归 、 分 类 、 聚 类 等 算法 。 


第 2 章 学 习 回 归 一 一 基于 广告 费 预测 点 击 量 
以 “根据 投入 的 广告 费 来 预测 点 击 量 ”为 题材 ， 学 习 回 归 。 我 们 先 利用 
简单 的 例子 来 思考 为 了 预测 需要 引入 什么 样 的 表达 式 ， 然 后 考虑 如 何 才能 使 


它 接 近 最 适合 的 结果 。 


第 3 章 学 习 分 类 一 基于 图 像 大 小 进行 分 类 
以 “根据 图 像 的 大 小 ， 将 其 分 类 为 纵向 图 像 和 横向 图 像 ”为 题材 ， 学 习 
分 类 。 
与 第 2 章 一样 ， 我 们 首先 考虑 为 了 实现 分 类 需要 引入 什么 样 的 表达 式 ， 
然后 考虑 如 何 才能 使 它 接 近 最 适合 的 结果 。 


第 4 章 评估 一 一 评估 已 建立 的 模型 
将 检查 在 第 2 章 和 第 3 章 中 考虑 的 模型 的 精度 。 我 们 将 学 习 如 何 对 模型 
进行 评估 ， 以 及 用 于 评估 的 指标 有 哪些 。 


第 5 章 实现 一 一 使 用 Python 编程 
根据 从 第 2 章 到 第 4 章 学 到 的 内 容 ， 使 用 Python 进行 编程 。 读 了 这 一 章 
以 后 ， 我 们 就 能 知道 如 何 把 前 面 用 表达 式 思考 的 内 容 编 写 为 代码 了 。 


附录 

补充 了 没 能 在 正文 的 5 章 中 介绍 的 数学 相关 知识 ， 请 根据 需要 参考 使 
j。 这 些 知 识 包括 : 求 和 符号 和 求 积 符 号 、 微 分 、 偏 微分 、 复 合 函 数 、 向 量 
和 矩阵、 几何 向 量 、 指 数 、 对 数 、Python 环境 搭建 、Python 的 基础 知识 和 
NumPy 的 基础 知识 。 
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Xi 


出 场 人 物 介 绍 


听从 公司 上 司 的 建议 ， 正 在 学 习 机 器 学 习 的 程序 员 。 
做 事 很 认真 ,偶尔 会 得 意 忘 形 。24 岁 ， 很 喜欢 吃 点 心 。 


美 绪 
从 大 学 时 就 是 绫 乃 的 朋友 。 大 学 的 专业 是 计算 机 视觉 。 
不 会 拒绝 绫 乃 的 请 求 。 也 喜欢 吃 甜食 。 


xii | 出 场 人 物 介绍 | 


绫 乃 正 在 找 美 绪 商量 什么 事情 。 
好 像 是 因为 上 司 对 她 说 了 一 名 “有 时 间 你 学 一 下 机 器 学 习 ”， 
但 是 她 不 知道 要 学 什么 、 该 怎么 学 ， 
所 以 来 找 美 绪 商量 该 怎么 办 。 
我 们 去 看 看 她 们 都 聊 了 些 什 么 吧 。 


| 1.1 | 对 机 器 学 习 的 兴趣 


我 想 学 机 咒 学 习 ， 但 是 我 连 要 学 什么 、 该 怎么 学 都 不 知道 …… 


所 以 你 来 找 我 商量 ? 


是 呀 。 美 绪 你 上 学 的 时 候 不 是 研究 过 机 带 学 习 嘛 ， 我 那 时候 就 觉 
得 你 好 厉害 ， 所 以 来 向 你 讨教 啦 。 


我 实际 上 做 的 是 计算 机 视觉 的 研究 哦 ， 只 是 做 研究 的 时 候 用 到 过 
机 天 学 习 。 


不 管 是 计算 机 视觉 还 是 机 器 学 习 ， 光 听 这 两 个 术语 就 觉得 好 难 啊 。 
还 有 ， 介 绍 机 器 学 习 的 文章 里 不 是 经 常会 出 现 数学 表达 式 吗 ? 那 
些 表 达 式 的 意思 我 也 不 明白 …… 


确实 有 很 多 数学 表达 式 。 不 过 ， 对 于 机 带 学 习 中 比较 基础 的 部 分 ， 
我 们 只 要 一 个 一 个 地 慢 慢 理解 那些 表达 式 的 含义 ， 也 就 不 难 了 。 


美 绕 ， 你 数学 也 很 拿手 吧 ? 但 是 我 不 擅长 数学 ， 所 以 来 请 教 你 ， 
由 你 来 讲解 的 话 我 应 该 能 听 得 忆 …… 


数学 表达 式 本 来 就 是 很 方便 的 工具 ， 它 可 以 把 那些 说 起 来 会 很 嗓 
唆 的 东西 ， 以 谁 都 能 够 理解 的 方式 严密 、 简 洁 地 表达 出 来 。 


看 来 我 需要 先 和 数学 成 为 朋友 呀 ， 这 样 才能 感受 到 表达 式 的 方便 
所 在 。 
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对 了 ， ， 你 想 用 机 器 学 习 做 什么 ? 


其 实 吧 ， 是 公司 的 上 司 让 我 有 时 间 学 一 下 机 带 学 习 。 


原来 是 公司 的 事情 。 那 个 人 不 能 教 你 吗 ? 


我 问 过 他 ， 但 他 好 像 也 不 是 很 懂 。 我 感觉 他 就 是 想 说 “机 器 学 习 ” 
这 个 词 而 已 …… 


首先 要 明确 的 就 是 想 使 用 机 器 学 习 来 做 什么 ， 思 考 目 的 是 很 
的 …… 那 么 ， 你 觉得 机 器 学 习 是 在 什么 地 方 使 用 的 呢 ? 


ph 
烟 


咖 ， 我 经 常 听 到 的 是 鉴别 垃圾 邮件 、 用 图 像 进 行人 脸 识别 、 电 商 
网 站 的 推荐 功能 之 类 的 。 


可 以 啊 ， 你 知道 的 挺 多 嘛 。 


上 网 查 资料 这 种 事情 我 还 是 会 做 的 ， 而 且 来 找 你 之 前 我 多 多 少 少 
也 了 解 了 一 点 相关 信息 。 


0 而 且 涉及 的 领域 非常 广泛。 


是 呀 是 呀 。 我 感觉 只 要 有 了 机 器 学 习 ， 就 什么 都 可 以 做 了 。 机 器 
学 习 真 是 令 人 充满 希望 。 


知 


因为 机 器 学 习 ， 人 们 确实 做 到 了 很 多 过 去 做 不 到 的 事情 。 不 过 要 
说 有 了 机 咒 学 习 就 什么 都 可 以 做 ,我 觉得 这 里 面 存在 误解 。 


全 啊 ， 是 这 样 吗 ?难道 还 有 限制 ? 


然 它 的 应 用 场景 很 多 ， 但 它 不 是 万 能 的 。 了 解 机 器 学 习 适 合 的 
场景 ， 明 确 它 能 做 什么 、 不 能 做 什么 也 很 重要 。 


原来 还 有 不 能 适用 机 咒 学 习 的 场景 呀 ， 有 点 遗憾 。 


受 人 关注 ， 使 用 机 器 学 习 实 际 能 做 什么 这 些 话 题 吧 。 


| 在 开始 学 习 机 器 学 习 之 前 ， 我 们 还 是 先 聊 聊 为 什么 机 器 学 习 如 此 


全。 好 是， 听 起 来 好 像 很 有 意思 ! 稍 等 一 下 ， 我 去 拿 咖啡 和 们 二 过 来 


| 1.2 | 机 器 学 习 的 重要 性 


为 什么 机 絮 学 习 变 得 如 此 受 人 关注 呢 ?( 味 只 味 ) 


其 实 机 带 学 习 的 基础 理论 和 算法 本 身 并 不 是 新 出 现 的 。 
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次， 原来 是 以 前 就 有 的 啊 ? 


无 论 是 过 去 还 是 现在 ， 计 算 机 都 特别 擅长 处 理 重 复 的 任务 。 所 以 


计算 机 能 够 比 人 类 更 高 效 地 读 取 大 量 的 数据 、 学 习 数 据 的 特征 并 


从 中 找 出 数据 的 模式 。 这 样 的 任务 也 被 称 为 机 器 学 习 或 者 模式 识 
别 ， 以 前 人 们 就 有 用 计算 机 处 理 这 种 任务 的 想法 ， 并 为 此 进行 了 
大 量 的 研究 ， 也 开发 了 很 多 代码 。 


由 | 


原来 机 器 学 习 从 很 久 以 前 就 可 以 做 很 多 事情 ， 真 是 出 乎 意料 ……: 


现在 机 器 学 习 能 做 的 事情 更 多 了 。 虽 然 不 可 否认 这 受益 于 计算 机 
理论 的 发 展 ， 不 过 我 认为 主要 还 是 归功 于 以 下 两 点 。 

。 具 备 了 能 够 收集 大 量 数 据 的 环境 

。 具 备 了 能 够 处 理 大 量 数 据 的 环境 


也 就 是 说 ， 让 计算 机 收集 大 下 
许多 多 的 事情 了 吗 ? 


数据 、 学 习 大 量 知识 ， 就 可 以 做 许 


嗯 ， 差 不 多 是 这 样 的 。 当 我 们 打算 用 机 带 学 习 做 什么 事情 的 时 候 ， 
首先 需要 的 就 是 数据 。 因 为 机 器 学 习 就 是 从 数据 中 找 出 特征 和 模 


式 的 技术 。 


原来 并 不 是 说 有 一 个 很 历 害 和 
么 都 会 玫 我 们 搞定 呀 。 


嗯 ， 所 以 收集 数据 很 重要 。 


J 程序， 只 要 把 事情 交 给 它 ， 它 就 什 


不 过 “具备 了 能 够 收集 大 量 数据 的 环境 ”是 什么 意思 呢 ? 


知 


由 于 互联 网 的 发 展 ， 个 人 行为 和 生活 的 一 部 分 已 经 被 数字 化 ， 规 
模 大 到 无 法 想象 的 数据 也 随 之 而 生 。 
而 且 ， 不 仅 是 数据 量变 多 了 ， 数 据 的 种 类 也 增加 了 。 其 中 包括 
Web 网 站 的 访问 记录 、 博 客 上 发 布 的 博文 和 照片 、 邮 件 的 发 送 记 
录 、 电 商 网 站 的 购买 记录 等 ， 数 不 胜 数 。 多 亏 有 了 互联 网 ， 我 们 
才 可 以 轻松 获取 大 量 这 样 的 数据 。 


对 呀 ,我 也 经 常 在 网 上 买 东西 。 现 在 再 普通 不 过 的 事情 ， 在 过 去 
看 来 却 并 不 简单 …… 


我 们 就 拿 刚 才 你 举 的 机 器 学 习 的 例子 来 说 吧 。 人 脸 识别 可 以 使 用 
SNS 网 站 上 与 人 物 标签 一 起 被 上 传 的 图 像 数据 ， 而 推荐 系统 则 可 
以 使 用 电 商 网 站 上 的 购买 记录 数据 。 不 管 是 人 脸 识 别 还 是 推荐 系 
统 ， 都 是 从 数据 中 学 到 的 成 果 


o 


原来 如 此 。 看 来 我 之 前 对 机 器 学 习 完全 不 了 解 啊 。 


而 且 现 在 计算 机 的 性 能 也 越 来 越 高 ， 处 理 同 样 多 的 数据 所 需 的 时 
间 变 得 越 来 越 短 ， 硬 盘 和 SSD 这 样 的 存储 设备 也 越 来 越 便宜 。 


现在 好 厉害 呀 。 计 算 机 能 够 处 理 大 量 数 据 ， 也 就 能 学 到 相应 的 大 
量 知识 ， 真 让 人 激动 。 而 且 值 得 处 理 的 数据 也 非常 多 。 


是 啊 。 不 过 ， 比 起 可 以 学 习 到 大 量 知 识 ， 计 算 机 能 够 更 快 地 处 
理 数据 这 一 点 更 令 人 激动 。 现 在 可 以 使 用 GPU 进行 数值 计算 ， 
Hadoop、Spark 之 类 的 分 布 式 处 理 技 术 也 逐渐 成 熟 ， 所 以 才 说 现 
在 “具备 了 能 够 处 理 大 量 数据 的 环境 ”。 


适合 机 器 学 习 的 时 代 终 于 来 临 了 ! 


| 


寸 ， 所 以 人 们 对 机 器 学 习 的 兴趣 越 来 越 高 。 机 融 学 习 不 仅 可 以 应 
昌 在 那些 方便 我 们 日 常生 活 的 应 用 程序 上 ， 还 可 以 帮助 商务 人 士 
做 决策 ， 或 者 应 用 在 医疗 、 金 融 、 安 全 等 其 他 各 种 领域 。 


< 
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这 样 说 来 ， 机 器 学 习 真 是 太 厉害 了 。 眼 下 也 正 是 使 用 机 需 学 习 大 
展 拳脚 的 时 候 ， 我 现在 真心 想 学 习 它 了 。 


| 1.3 | 机 器 学 习 的 算 ; 


我 已 经 知道 机 器 学 习 有 很 多 应 用 场景 了 ， 不 过 我 想 更 具体 地 了 解 
一 下 机 器 学 习 是 如 何 被 实际 应 用 的 。 


没 问 题 ， 那 我 们 来 聊 聊 这 个 话题 。 下 面 这 几 个 就 是 机 器 学 习 非 常 
前 长 的 任务 。 


。 回归 (regression ) 
。 分 类 ( classification ) 


。 聚 类 ( clustering ) 


这 儿 个 词 我 倒是 听 说 过 …… 


我 们 依次 来 看 一 下 吧 。 首 先是 回归 。 简 单 易 懂 地 说 ， 回 归 就 是 在 
处 理 连续 数据 如 时 间 序 列 数 据 时 使 用 的 技术 。 


一 点 也 不 简单 易 懂 …… 时 间 序 列 数 据 ? 那 是 什么 样 的 数据 呀 ? 


就 是 那些 连续 观测 到 的 因 时 而 蜡 的 数据 。 股 价 就 是 时 间 序 列 数 据 
的 一 个 例子 。 看 一 下 这 个 (图 1-1 )， 你 应 该 见 过 这 样 的 图 吧 ? 


知 


图 1-1 


不 错 ， 一 点 就 通 


数据 了 。 


这 个 我 明白 了 。 
思 呢 ? 


例如 ， 我 们 从 刚 


股 人 
价 
时 间 
原来 这 就 是 连续 数据 呀 ， 那 么 身高 和 体重 这 样 的 数据 也 是 连续 数 
据 唉 ? 


。 身 高 和 体重 本 身 就 是 连续 的 数据 ， 假 如 记录 下 


每 天 的 身高 和 体重 ,那么 得 到 的 数据 就 是 类 似 于 股价 的 时 间 序 列 


对 这 样 的 连续 数据 使 用 机 器 学 习 ， 又 是 什么 意 


才 的 图 中 ， 选 出 几 个 过 去 某 个 时 间 点 的 股价 数据 


( 表 1-1)。 
表 1-1 
日 期 股价 
昨天 工 1000 
2 天 前 工 1100 
3 天 前 ¥1070 


算法 。 


从 这 样 的 数据 中 
少 ”“ 今 后 的 趋势 会 怎样 ”的 方法 就 是 回归 ， 它 就 是 一 种 机 器 学 习 


学 习 它 的 趋势 ， 求 出 “明天 的 股价 会 变 为 多 
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未 来 的 预测 呀 。 如 果真 能 准确 地 预测 股价 就 厉害 了 。 


那 当 然 了 。 股 价 的 变动 不 只 受过 去 股价 的 影响 ， 所 以 光 靠 这 个 信 
息 并 不 能 很 好 地 预测 出 来 。 


是 啊 ， 当 前 的 经 济 状况 和 企业 的 业绩 等 都 会 影响 到 股价 。 


没 错 。 所 以 当 我 们 要 预测 什么 事情 的 时 候 ， 经 常会 把 对 预测 有 
响 的 数据 收集 起 来 进行 组 合 。 


原来 如 此 。 那 分 类 又 是 什么 意思 呢 ? 


分 类 没 那 么 难 。 比 如 刚才 你 提 到 的 鉴别 垃圾 邮件 就 可 以 归 类 为 分 
类 问题 。 


也 就 是 说 检查 邮件 的 内 容 ， 然 后 判断 它 是 不 是 垃圾 邮件 ， 对 吧 ? 


是 的 。 就 是 根据 邮件 的 内 容 ， 以 及 这 封 邮件 是 否 属于 垃圾 邮件 这 
些 数据 来 进行 学 习 ( 表 1-2 )。 


表 1-2 


邮件 内 容 是 否 为 垃圾 邮件 


辛苦 啦 ! 下 个 周 日 我 们 去 玩 吧 …… x 
加 我 为 好 友 吧 。 这 里 有 我 的 照片 哟 ! http://.… 


知 


10 | 


在 开始 学 习 之 前 ， 我 们 必须 像 这 张 表 这 样 ， 先 用 O 〇 或 x 手动 标记 
邮件 是 否 为 垃圾 邮件 ， 稍 微 有 些 麻烦 。 


黎 ? 要 一 个 一 个 检查 ， 然 后 打上 @ 〇 或 x 的 标签 吗 ? 好 麻烦 呀 …… 


实际 上 机 顺 学 习 中 最 麻烦 的 地 方 ， 就 是 收集 数据 。 无 论 收集 数据 
的 环境 变 得 多 好 ， 还 是 有 很 多 需要 人 工 介 入 的 工作 。 


原来 是 这 样 啊 。 这 个 打 标 签 的 工作 ， 光 想 想 就 觉得 它 很 花 时 间 。 


这 种 工作 也 是 有 改善 空间 的 。 比 如 最 近 的 邮件 服务 中 ， 用 户 可 以 
对 收 到 的 邮件 打上 “这 是 垃圾 邮件 ”的 标签 。 直 接 使 用 这 些 由 用 
户 打 好 标签 的 数据 也 是 一 个 法 子 。 


哇 ， 真 聪明 。 根 据 照 片上 的 人 脸 来 判断 他 是 男人 还 是 女人 的 工作 
也 是 分 类 问题 吧 ? 


对 ， 这 也 是 分 类 问题 。 像 这 种 只 有 两 个 类 别 的 问题 称 为 二 分 类 ， 
有 三 个 及 以 上 的 问题 称 为 多 分 类 ， 比 如 数字 的 识别 就 属于 多 分 类 
问题 。 


是 吗 ? 数字 的 识别 是 分 类 问题 吗 ? 


想 一 想 判断 图 片 中 的 数字 是 几 的 问题 。 我 们 会 判断 那 张 图 片 是 0， 
这 张 图 片 是 9， 这 样 问题 不 就 变 成 了 按照 0~9 的 数字 信息 对 图 片 进 
行 分 类 的 问题 了 吗 ? 


这 样 说 的 话 ， 的 确 如 此 …… 


| 开始 二 人 之 旅 


这 种 技术 可 以 用 来 自动 识别 明信片 上 手写 的 邮件 编码 。 有 一 个 很 
有 名 的 数据 集 叫 MNIST ， 其 中 收集 了 大 量 手写 的 数字 图 片 ， 以 及 
图 片 实际 的 数字 信息 。 


Ve 世上 还 有 这 样 的 东西 啊 。 那 最 后 的 聚 类 又 是 什么 呢 ? 


了 聚 类 与 分 类 相似 ， 却 又 有 些 不 同 。 聚 类 考虑 的 问题 是 : 假设 在 有 
可 100 名 学 生 的 学 校 进行 摸底 考试 ， 然 后 根据 考试 成 绩 把 100 名 学 生 
疏 - 参 分 为 几 组 ， 根 据 分 组 结果 ， 我 们 能 得 出 某 组 偏重 理科 、 某 组 偏重 
文科 这 样 有 意义 的 结论 。 这 里 用 来 学 习 的 数据 就 是 每 个 学 生 的 考 路 


试 分 数 ， 比 如 下 面 这 张 表 ( 表 1-3 )。 和 
表 1-3 
学 生 编号 英语 分 数 数学 分 数 语文 分 数 物理 分 数 
| 100 98 89 96 Wu 
山 
A-2 77 98 69 98 
A-3 99 56 99 61 
小 
册 
这 不 就 是 分 类 吗 ? 


它 与 分 类 的 区 别 在 于 数据 带 不 带 标签 。 也 有 人 把 标签 称 为 正确 答 了 
案 数据 。 比 如 刚才 的 垃圾 邮件 鉴别 问题 ， 除 了 邮件 内 容 以 外 ， 数 由 
据 集中 是 不 是 还 包含 了 标记 邮件 是 否 为 垃圾 邮件 的 数据 ? 


嗯 ， 有 的 。 


次 期 


可 这 个 考试 分 数 的 数据 里 并 没有 与 分 类 有 关 的 标签 ,仅仅 包 含 了 
编号 和 分 数 的 数据 而 已 。 


原来 区 别 在 于 准备 的 数据 里 是 否 包含 了 标签 信息 呀 。 这 不 太 好 理 
解 啊 。 


使 用 有 标签 的 数据 进行 的 学 习 称 为 有 监督 学 习 ， 与 之 相反 ,使 用 
没有 标签 的 数据 进行 的 学 习 称 为 无 监督 学 习 。 回 归 和 分 类 是 有 监 
督学 习 ， 而 聚 类 是 无 监督 学 习 ， 这 样 对 比 记忆 效果 可 能 会 更 好 。 


光 记 住 这 些 名 字 好 像 就 很 难 …… 回 归 、 分 类 、 聚 类 ， 还 有 有 监督 


学 习 、 无 监督 学 习 …… 


如 果 只 死记 硬 背 很 快 就 会 忘 光 啦 。 我 还 是 建议 你 多 去 学 习 和 实践 ， 
到 时 候 想 不 记 住 都 难 。 


是 那样 的 吗 ? 


你 说 自己 不 擅长 数学 ,不 过 你 也 是 理科 生 吧 ? 


啊 ， 是 呀 一 -算是 吧 …… 


那 你 还 记得 概率 统计 、 微 分 和 线性 代数 吗 ? 


| 开始 二 人 之 旅 


机 器 学 习 多 多 少 少 还 是 


人 如 果 你 觉得 
心里 没 底 ， 就 先 复习 | 定 有 用 的 。 尤 其 是 0 


有 和 统计 方法 类 似 的 地 方 ， 所 \ 懂 这 些 知识 的 话 ， 肯 定 学 起 来 会 


很 快 。 


果然 需要 数学 。 看 来 要 从 头 开 始 学 习 了 。 


不 过 就 像 我 一 开始 说 的 ， 如 果 只 是 学 习 机 带 学 习 的 基础 知识 ， 并 


不 需要 太 高 深 0 下 当然 最 好 ， 等 而 
明白 的 地 方 再 去 查 资 料 可 能 也 不 会 有 什么 问题 。 


真 的 吗 ? 不 过 我 会 找 时 间 简 单 地 复习 一 下 的 。 


绫 万 很 拼 嘛 。 


学 这 个 很 有 趣 啊 。 


那 你 编程 怎么 样 ? 


因为 现在 的 工作 也 要 编程 ， 所 以 没 问 题 。 我 很 擅长 的 ， 我 ; 
个 自己 的 Web 服务 呢 。 


到 不 


还 有 一 


那 我 就 放心 了 。 既 然 你 比 我 擅长 编程 ， 那 我 只 能 教 你 一 些 理论 知 
识 了 。 机 器 学 习 常用 的 开发 语言 有 Python 和 及 ， 如 果 有 这 两 种 语 


言 的 使 用 经 验 ， 那 就 事半功倍 了 。 


知 


我 还 没 用 过 Python 和 R…… 不 过 我 有 开发 的 底子 ， 学 习 新 的 语言 
对 我 来 说 应 该 不 那么 难 。 


当然 , 用 C 或 Ruby、PHP、JavaScript 也 可 以 实现 机 器 学 习 ， 
只 是 Python 和 R 的 机 器 学 习 库 极其 丰富 ， 所 以 用 的 人 比较 多 。 


能 够 轻松 地 实现 当然 更 好 啦 。 啊 ,咖啡 党 了 。 今天 我 们 就 聊 到 这 
里 吧 。 


好 ， 下 次 我 们 再 具体 地 聊 一 下 。 


作 细 好 是, 谢谢 ! 
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学 习 回 归 


基于 广告 费 预 测 点 击 量 


绫 乃 请 美 绪 教 她 机 器 学 习 中 常用 的 数学 知识 。 
她 首先 要 学 习 的 是 “回归 ”。 
她 们 准备 根据 绫 乃 运营 的 Web 服务 的 广告 费 数 据 来 学 习 。 
那么 ， 绫 乃 到 底 能 不 能 理解 回归 呢 ? 


我 们 就 先 一 起 来 看 一 看 回归 吧 。 下 面 我 们 结合 具体 的 例子 来 说 。 


好 呀 ,具体 的 例子 就 像 明 天 的 午饭 一 样 重要 啊 。 


你 这 个 比喻 的 意义 我 完全 无 法 理解 …… 不 过 例子 确实 很 重要 。 对 
了 ,我 记得 你 说 过 你 在 运营 一 个 Web 服务 ? 


是 啊 ， 当 时 是 为 了 学 习 编 程 而 建立 的 。 用 户 可 以 通过 它 上 传 时 装 
照片 ， 然 后 再 分 享 给 大 家 。 除 了 编程 我 还 能 学 到 时 尚 的 穿 拱 ， 真 
挺 不 错 的 。 


好 像 插 有 意思 的 ， 我 也 有 意 用 用 了 。 


那 太 好 了 。 不 过 现在 的 访问 数 还 很 少 ,我 在 想 要 不 要 发 点 广告 什 
么 的 ， 让 更 多 的 人 知道 这 个 服务 。 


这 样 啊 。 那 好 ， 我 们 就 以 Web 广告 和 点 击 量 的 关系 为 例 来 学 习 回 
归 吧 。 


我 对 Web 营销 倒是 挺 感 兴趣 的 ， 不 过 这 和 机 器 学 习 有 关系 吗 ? 


先 听 我 说 完 。 为 了 简化 问题 ， 我 们 假设 存在 这 样 一 个 前 提 : 投入 
的 广告 费 越 多 ,广告 的 点 击 量 就 越 高 ， 进 而 带 来 访问 数 的 增加 。 


咽 ,， 广告 基本 上 就 是 这 样 的 。 


不 过 点 击 量 经 常 变 化 ， 投 入 同样 的 广告 费 未 必 能 带 来 同样 的 点 击 


用 下 面 的 图 展示 出 来 (图 2-1)。 图 中 的 值 是 随便 选 的 。 
项 
击 800 十 部 
时 . 
600 十 a ” 
400 十 ww。 本 
200 十 
100 200 300 广告 费 WO 
图 2-1 几 
(3 原来 如 此 。 投 入 的 广告 费 越 多 ， 点 击 量 就 越 高 。 
了 小 
项 


那 你 看 着 这 张 图 来 回答 一 下 (图 2-2 )。 如 果 花 了 200 日 元 的 广告 一 
费 , 广告 的 点 击 量 会 是 多 少 呢 ? 


识 

Ul 

二 
下 800 才 
人 大 概 在 这 里 ? 。 


>® 
® 
外 
@@ 
次 期 


400 十 @ 


200 十 


100 200 300 ”广告 费 


图 2-2 
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这 个 问题 太 简单 了 ! 500 次 左右 吧 ? 


对 的 ， 好 厉害 


o 


你 不 是 在 讽刺 我 吧 ……?( 笑 ) 


没有 没有 ! 刚才 你 不 是 根据 现 有 的 数据 ,在 图 上 标 出 了 “大 概 在 
这 里 ”了 吗 ? 


咽 ， 是 呀 。 


这 就 是 机 器 学 习 。 你 所 做 的 事情 正 是 从 数据 中 进行 学 习 ， 然 后 给 
出 预测 值 。 接 下 来 我 们 就 要 使 用 机 器 学 习 ， 像 你 刚才 做 的 那样 ， 
尝试 进行 根据 广告 费 预测 点 击 量 的 任务 。 


原来 是 这 么 回 事 。 但 是 就 算 不 使 用 机 器 学 习 ， 谁 看 到 这 张 图 都 能 
说 出 正确 答案 吧 。 


就 像 我 一 开始 所 说 的 ， 这 是 我 们 把 问题 设置 得 非常 简单 的 缘故 。 


也 就 是 投入 的 广告 费 越 多 ， 点 击 量 就 越 高 这 个 前 提 ? 


对 。 不 过 ,实际 要 使 用 机 器 学 习 来 解决 的 问题 都 会 更 复杂 ， 很 多 
问题 无 法 像 这 样 画 出 图 来 。 现 在 我 们 为 了 加 深 理 解 才 用 了 这 样 一 
个 简单 的 例子 ， 后 面 的 例子 会 越 来 越 难 的 。 


学 习 回 归 


3 这 样 啊 ， 现 在 的 我 对 此 还 没有 什么 头绪 ……… 


| 2.2 | 定义 模型 " 
和 项 


那 如 何 应 用 机 器 学 习 呢 ? 


把 图 想象 为 函数 ( 图 2-3 )。 只 要 知道 通过 图 中 各 点 的 函数 的 形式 ， 
就 能 根据 广告 费 得 知 点 击 量 了 。 不 过 刚才 我 也 说 过 ， 点 击 量 经 常 变 
化 ， 这 叫 作 “点 击 量 中 含有 噪声 "， 所 以 函数 并 不 能 完美 地 通过 所 小 


有 的 点 。 W 
姓 
点 个 本 
击 800 才 a . 

量 和 
和 <- 一 心 
600 十 We 姓 

0 
400 十 -Ar 一 
疡 和 ee 
200 十 让 
| | | > 
100 200 300 ”广告 费 
图 2-3 

| 托 溃 】 英 非 这 个 函数 是 一 次 丽 数 ? 


没 错 ， 就 是 一 次 函数 。 初 中 的 时 候 老 师 让 你 画 过 函数 的 图 像 吧 ? 


辕 
| 


全 
入 


是 啊 ， 没 少 画 ， 还 挺 怀 念 的 。 一 次 函数 的 表达 式 就 是 y = az 十 5， 
其 中 a 是 斜率 、b 是 截 距 ， 对 吧 ? 


咽 ， 没 错 。 只 要 确定 了 斜率 和 截 距 ， 一 次 函数 的 图 像 形状 也 就 确 
定 了 ， 所 以 接 下 来 我 们 要 看 的 就 是 a 和。。 


原来 是 这 样 ， 我 履 了 。 


考虑 到 后 面 的 学 习 ， 我 们 得 像 下 面 这 样 定 义 一 次 函数 的 表达 式 ， 
不 再 使 用 a 和 pb。 


y= 00+07 (2.2.1) 


哇 ， 突 然 变 得 很 有 数学 风格 了 …… 这 个 0 是 什么 ? 


已 读 作 “西塔 "， 就 是 接 下 来 我 们 要 去 求 的 未 知 数 。 也 有 人 管 它 叫 


参数 …… 那 用 a 和 5 不 也 挺 好 的 吗 ? 为 什么 要 特意 用 9 呢 ? 


在 统计 学 领域 ， 人 们 常常 使 用 9 来 表示 未 知 数 和 推测 值 。 采 用 0 
加 数字 下 标的 形式 ， 是 为 了 防止 当 未 知 数 增加 时 ， 表 达 式 中 大 量 
出 现 a、5、c、d… 这 样 的 符号 。 这 样 不 但 不 易 理解 ， 还 可 能 会 出 
现 符号 本 身 不 够 用 的 情况 。 


原来 是 这 样 ， 总 之 我 现在 把 它们 当 作 和 斜率 和 截 距 就 没 问题 了 对 吧 ? 


对 现在 的 例子 来 说 没 问 题 。 还 有 ， 我 想 你 应 该 知道 ，z 是 广告 费 、 
y 是 点 击 量 。 


这 两 个 没 问 题 。 


代入 具体 的 值 会 有 助 于 理解 。 比 如 我 们 设 go = 1、01 = 2， 那么 
表达 式 2.2.1 的 y = 0 十 07 会 变 成 什么 样 的 表达 式 呢 ? 


代入 就 行 了 ? 这 个 简单 。 


2 三 工 十 27 (2.2:2) 


很 好 。 接 下 来 我 们 就 向 这 个 表达 式 中 的 z 代入 具体 的 数值 来 计算 y。 


好 ， 那 我 就 计算 一 下 x = 100 时 % 的 值 。 


4 三 1 十 27 
二 1 十 2 x 100 
= 201 (2.2.3) 


这 也 就 是 说 ， 在 参数 90 =1、0 = 2 的 情况 下 ，100 日 元 的 广告 费 
带 来 的 点 击 量 为 201 左右 。 这 个 明白 吗 ? 


不 对 呀 ， 看 一 下 刚才 的 图 ( 图 2-4 )， 如 果 广 告 费 为 100 日 元 ,， 那 
么 点 击 量 应 该 大 于 400 呀 ? 
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贡 


次 期 


点 2 个 
击 800 十 加 
里 四 
该 大 于 [不 ? . 
600 应 该 大 于 400 呀 ? , . 
® 。 
400 J 
200 十 : 
| | | > 
100 200 300 ”广告 费 
rz 
图 2-4 


机 器 学 习 来 求 出 正确 的 bo 和 0 的 值 。 


是 的 ， 这 说 明 我 们 刚才 确定 的 参数 go =1、0 = 2 完全 不 正确 。 
接 下 来 我 们 就 要 使 用 


(k 3 原来 是 这 么 回 事 呀 。 


| 2.3 | 最 小 二 乘法 


在 讲 这 个 之 前 ， 我 们 还 是 把 前 面 的 表达 式 2.2.1 修改 成 这 个 样子 吧 。 


fo(¥) = 00 + O07 (2.3.1) 
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就 是 把 y 换 成 了 je(z) 吗 ? 这 是 为 什么 呀 ? 


这 样 修改 之 后 ， 我 们 就 可 以 一 眼看 出 这 是 一 个 含有 参数 0， 并 且 和 
变量 z 相关 的 函数 。 而 且 ， 如 有 果 继 续 使 用 y， 后 面 可 能 会 造成 混乱 。 


好 吧 ， 那 就 按 你 说 的 来 吧 …… 


那 我 们 就 马上 去 求 6 吧 。 现 在 我 们 手头 有 的 是 广告 费 及 其 相应 点 
击 量 的 数据 。 


就 是 在 刚才 的 图 上 夯 的 那些 点 吧 ? 


贡 


几 
是 啊 。 这 些 数 据 称 为 训练 数据 。 我 们 将 训练 数据 中 的 广告 费 代 入 
Jo(z) ， 把 得 到 的 点 击 量 与 训练 数据 中 的 点 击 量 相 比较 ， 然 后 找 出 

使 二 者 的 差 最 小 的 0。 
小 
几 
你 等 会 儿 ! 我 不 太 理 解 你 的 意思 ……… _ 
让 
un 
那 我 具体 举 几 个 训练 数据 的 例子 ( 表 2-1 )， 可 能 会 有 助 于 你 理解 。 直 
表 2-1 肝 
广告 费 z 点 击 量 y 本 

58 374 
70 385 

81 375 

84 401 
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也 就 是 这 4 个 点 吧 ( 


图 2-5 )? 


点 2 个 
击 800 十 
人 这 4 个 。 
na be 
600 十 
Rs » @ 
400 十 ”ee、 
: ee | 
200 十 > 
| | | 
100 200 300 ”广告 费 
I 


图 2-5 


是 的 。 刚 才 我 们 随便 确 


定 了 一 个 参数 ， 得 到 


E 式 为 fo(x)=1 


十 
2z 的 表达 式 2.2.2， 下 面 我 们 将 广告 费 的 值 代入 这 个 fo(z) 中 进行 


计算 。 


es 这 样 吗 ( 表 2-2 )? 


表 2-2 
广告 费 z 点 击 量 y bo= 1、091 二 2 时 的 fo (zx) 
58 374 117 
70 385 141 
81 375 163 
84 401 169 
不 错 。 刚 才 我 们 也 聊 到 过 ， 这 种 用 随便 确定 的 参数 计算 的 值 与 实 


际 的 值 存在 偏差 。 这 个 表 2-2 能 让 我 们 更 确信 这 一 点 。 


学 习 回归 


也 就 是 说 表 2-2 中 的 y 与 fo(zx) 的 值 完全 不 同 ， 对 吧 ? 


是 的 。 不 过 ,我 们 希望 出 现 的 最 理想 的 情况 是 y 与 fo(x) 的 值 一 
致 ， 这 个 明白 吗 ? 


咽 ，fo(z) 就 是 为 了 研究 y 的 值 才 建立 的 函数 呀 。 


那么 我 们 来 思考 一 下 ， 为 了 接近 理想 的 情况 要 怎么 做 呢 ? 


理想 的 情况 就 是 二 者 一 致 ， 也 就 是 y = fo(z)…… 


我 们 对 你 说 的 这 个 表达 式 稍 做 调整 ， 让 它 变 形 为 y 一 foe(x) =0。 
这 就 是 说 y 和 fo(x) 之 间 的 误差 为 0。 没 有 误差 是 最 理想 的 情况 。 


我 懂 啦 ! 我 们 的 目标 是 让 误差 最 小 。 可 是 ,让 所 有 点 的 误差 都 等 
于 0 是 不 可 能 的 吧 ? 


是 的 ,不 可 能 让 所 有 点 的 误差 都 等 于 0。 所 以 我 们 要 做 的 是 让 所 有 
点 的 误差 之 和 尽 可 能 地 小 。 


咽 ， 你 说 过 点 击 量 的 数据 中 包含 噪声 ， 所 以 函数 不 能 丝毫 不 差 地 
通过 所 有 的 点 。 


看 一 下 这 张 图 ( 图 2-6 )， 这 样 表示 是 不 是 很 容易 理解 了 ? 图 中 的 
虚线 箭头 表示 训练 数据 的 点 和 fo(z) 图 像 的 误差 。 
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贡 
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hm 
e 
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击 800 十 
里 . 
. 外 
600 十 
一 人 
2 
400 十 _-- ， 
RR ，- 区 : 
:误差 _-- fo(z) = 1 十 2z 的 图 像 
200T uw- 
一 | | | 


> 
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rz 


图 2-6 


清晰 易 懂 。 我 们 只 要 想 办 法 缩小 误差 虚线 的 高 度 ， 就 能 预测 正确 
的 点 击 量 了 。 


我 们 来 把 刚才 说 的 内 容 用 表达 式 展 现 出 来 。 假 设 有 个 训练 数据 ， 
那么 它们 的 误差 之 和 可 以 用 这 样 的 表达 式 表 示 。 这 个 表达 式 称 为 
目标 函数 ， 己 (9) 的 五 是 误差 的 英语 单词 Brror 的 首 字母 。 


| 


B00) = 3 ~ f(a®)) 


i=1 (2.3.2) 


关于 3 ( 读 作 “西格玛 ”) 的 更 多 内 容 ， 请 参考 附录 A.1。 


哇 ， 一 下 子 变 得 这 么 难 …… 我 还 没有 做 好 心理 准备 呀 。 


我 会 一 个 一 个 说 明 的 ， 放 心 好 了 。 首 先 ， 为 了 避免 引起 误解 我 先 
说 明 一 下 : z6 和 yG 中 的 i 不 是 ;次 客 的 意思 ， 而 是 指 第 ;个 训 
练 数据 。 


让 我 看 一 下 表 2-2，z0) 为 58 的 时 候 wy 等 于 374，z0) 为 70 的 
时 候 VC2) 等 于 385， 对 吧 ? 


对 的 。2ji-1 是 求 和 符号 ， 我 们 对 每 个 训练 数据 的 误差 取 平方 之 
后 ， 全 部 相 加 ， 然 后 乘 以 5。 这 么 做 是 为 了 找到 使 (90) 的 值 最 小 
的 9。 这 样 的 问题 称 为 最 优化 问题 。 


为 什么 要 计算 误差 的 平方 呢 ? 


如 果 只 是 简单 地 计算 差 值 ， 我 们 就 得 考虑 误差 为 负 值 的 情况 。 比 
如 fo 的 图 像 是 这 样 的 (图 2-7 )， 你 想 一 想 这 种 情况 下 计算 误差 
之 和 会 得 到 什么 结果 


点 2 个 
下 800 才 
里 全 
入 
(| a 
-A Jol) 
下 . 
400 十 je 
人 
200 十 
+ + + > 
100 200 300 ”广告 费 
TX 
图 2-7 


中 间 以 左 的 误差 是 负数 ， 以 右 的 误差 是 正 数 ， 二 者 相 加 正 负 相 抵 ， 
我 感觉 结果 会 是 接近 0 的 数 。 


对 吧 ? 误差 之 和 虽然 为 0 了 ,但 是 很 明显 这 个 水 平方 向 的 fo(z) 是 
不 对 的 。 


原来 如 此 。 正 数 和 负数 的 混合 运算 比较 麻烦 ， 所 以 为 了 让 误差 都 
为 正 数 ， 才 计算 它们 的 平方 啊 。 那 用 绝对 值 计 算是 不 是 也 行 ? 就 
像 |y 一 fo(z)| 这 样 


[e] 


里 然 这 样 也 没 错 ,， 但 是 我 们 一 般 不 用 绝对 值 ， 而 用 平方 。 因 为 之 
后 要 对 目标 函数 进行 微分 ， 比 起 绝对 值 ， 平 方 的 微分 更 加 简单 。 
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微分 …… 昌 然 在 高 中 学 过 ,但 基本 上 全 忘 了 …… 绝 对 值 的 微分 很 


如 果 是 绝对 值 ， 有 的 点 不 能 计算 ， 而 且 还 必须 分 情况 讨论 ， 很 麻 
烦 。 关 于 微分 ,我们 后 面 遇 到 的 时 候 再 讲 吧 。 


那 为 什么 整个 表达 式 还 要 乘 以 立 呢 ? 


这 也 和 之 后 的 微分 有 关系 ， 是 为 了 让 作为 结果 的 表达 式 变 得 简单 
而 随便 加 的 常数 。 这 个 也 到 时 候 再 讲 吧 。 


嗯 ,不 过 可 以 随便 乘 以 一 个 常数 吗 ? 


嗯 ， 对 于 最 优化 问题 ， 这 么 做 是 没有 问题 的 。 比 如 , 在 f(x)= z2 
的 函数 图 像 中 ( 图 2-8 ), 使 函数 最 小 的 x 是 什么 呢 ? 


f(z)= 2 


当 z = 0 的 时 候 最 小 。 


那么 在 刚才 的 图 像 上 乘 以 (图 2.9), 使 函数 了 (z) = 4z2 最 小 的 z 是 
什么 呢 ? 


图 2-9 


只 要 乘 以 正 的 常数 ,函数 的 形状 就 会 被 横向 压 扁 或 者 纵向 拉 长 ， 二 
1 但 函数 本 身 取 最 小 值 的 点 是 不 变 的 。 


3 同样 还 是 当 z = 0 的 时 候 最 小 ! ， 
多 


小 

f 山 
2 我 终于 明白 这 个 表达 式 的 意思 了 。 

- ON : 

我 们 实际 来 计算 一 下 表达 式 2.3.2 中 (9) 的 值 吧 , 设 go = 1、01 = 2， 名 


然后 将 刚才 列举 的 4 个 训练 数据 代入 表达 式 。 求 出 来 的 误差 有 点 几 


于 必 . 民 加 
B(0) = 3 > (y® ~ fo(z®)) 


次 期 


x ((374 一 117)2 + (385 — 141)? + (375 — 163)? + (401 — 169)?) 


x (66 049 + 59 536 + 44 944 + 53 824) 


= 112 176.5 (2.3.3) 
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112 176.57 


112 176.5 这 个 值 本 身 没有 什么 意义 ,我 们 要 修改 参数 9， 使 这 个 值 


变 得 越 来 越 小 。 


让 这 个 值 变 小 ， 也 就 是 让 误差 变 小 ， 对 了 吧 ? 


就 是 这 样 。 这 种 做 法 称 为 最 小 二 乘法 。 


要 让 五 (9) 越 来 越 小 我 是 明白 的 ， 不 过 一 边 随意 修改 0 的 值 ， 一 边 
计算 B(9) 并 与 之 前 的 值 相 比较 的 做 法 实在 是 太 麻烦 了 。 


那样 做 的 确 很 麻烦 。 所 以 我 们 要 使 


前 面 简单 提 到 过 的 微分 来 求 它 。 


关于 微分 的 更 多 内 容 ， 请 参考 附录 A.2。 


微分 啊 ， 基 本 不 记得 了 。 


微分 是 计算 变化 的 快慢 程度 时 使 月 


有 没有 用 增 减 表 ? 


昌 的 方法。 你 在 学 微分 的 时 候 ， 


增 减 表 …… 这 么 说 起 来 好 像 是 用 过 。 好 令 人 怀念 的 话题 啊 。 


我 们 用 简单 的 例子 来 试 一 下 吧 。 比 如 有 一 个 表达 式 为 g(x) = 
(z 一 ?的 二 次 函数 (图 2-10)， 它 的 最 小 值 是 g(z) = 0， 出 现在 
z 二 1 时 。 你 知道 这 个 二 次 函数 的 增 减 表 是 什么 样 的 吗 ? 


g(7) = 


—1 0 1 2 3 zr 
图 2-10 
J/g 首先 要 进行 微分 对 吧 ? 将 g(z) 展 开 ， 有 (z 一 1 一 z2 一 27 十 1， 
所 以 是 这 样 微 分 吗 ? 
d 
二 (2 一 2 一 2 (2.3.4) 
3 ， 微 分 结果 就 是 这 个 。 为 了 写 出 增 减 表 ， 我们 看 一 下 导数 的 符号 。 
人 J 


We 所 谓 导数 ， 就 是 微分 后 的 函数 吧 ? 只 要 看 2x 一 2 的 符号 就 行 了 ， 
2 所 以 增 减 表 是 这 样 的 ( 表 2-3 )。 
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Zz 的 范围 县 9(z) 的 符号 9(z) 的 增 减 
小 云 荆 一 Ww 
z=1 
rr>1 十 7 


很 好 。 根 据 这 张 增 减 表 我 们 可 以 知道 , 在 x < 1 时 ，g(z) 的 图 形 


向 右 下 方 延 伸 ， 反 之 当 x > 1 时 ，g(7x) 的 


句 话说 就 是 从 左下 方 开始 延伸 的 。 


图 形 向 右上 方 延伸 ， 换 


嗯 ,不管 是 看 增 减 表 ， 还 是 看 g(z) 的 图 像 ， 的 确 都 是 如 此 。 


比如 在 x = 3 这 一 点 ,为 了 使 g(z) 的 值 变 小 ,我 们 需要 向 左 移动 
zx， 也 就 是 必须 减 小 x (图 2-11 )。 


如 果 是 在 男 


侧 的 z= 一 1 这 


图 2-11 


点 ,为 了 使 g(z) 的 值 变 小 ,我 们 


需要 向 右 移 动 zx， 也 就 是 必须 增加 x (图 2-12 )。 


图 2-12 


f 测 。 是 不 是 要 根据 导数 的 符号 来 决定 移动 z 的 方向 ? 


Ww 
姓 

没 错 。 只 要 向 与 导数 的 符号 相反 的 方向 移动 z，9(z) 就 会 自然 而 

然 地 沿 着 最 小 值 的 方向 前 进 了 。 
A 

我 明白 了 。 参 数 会 自动 更 新 ， 这 太 方 便 了 。 二 


我 们 把 刚才 说 的 内 容 用 表达 式 展示 出 来 ， 就 是 这 样 的 。 这 也 被 称 虽 
为 最 速 下 降 法 或 梯度 下 降 法 。 un 


次 期 
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拿 表 达 式 2.3.5 来 说 就 是 用 上 一 个 z 来 定义 新 的 z， 是 这 样 的 吧 ? 


它 是 称 为 学 习 率 的 正 的 常数 ， 读 作 “ 伊 塔 "。 根 据 学 习 率 的 大 小 ， 
到 达 最 小 值 的 更 新 次 数 也 会 发 生变 化 。 换 种 说 法 就 是 收敛 速度 会 
不 同 。 有 时 候 甚至 会 出 现 完全 无 法 收敛 ,一 直 发 散 的 情况 。 


稍 等 ! 这 里 我 又 不 明白 了 …… 


我 们 再 代入 具体 的 值 看 一 看 。 比 如 w=1， 从 z=3 开 始 ， 那么 x 
会 如 何 变化 呢 ? 


我 算 算 看 。9(z) 的 微分 是 2z 2， 那么 更 新 表达 式 就 是 vz :二 x 一 
7(2z 一 2) 对 吧 ? 我 就 用 这 个 表达 式 计 算 了 (图 2-13)。 


= 3—1(2x3-2) = 3-4 =-l 
zt:=—1—1(2x—1-—2)=-1+4 = 3 (2.3.6) 
tz:= 3-12x3-2) = 3-4 =-1 

学 习 回归 


图 2-13 


作 训 其” 怎么 - 直 在 3 和 -1 上 跳 来 跳 去 叮 ， 这 不 就 聊 入 了 死 循 环 吗 ? 


那 设 7 = 0.1， 同 样 从 x = 3 开始 ， 会 怎么 样 呢 ? 


Y 


了 
ey 


(pp 小 数 的 计算 有 点 麻烦 ， 四 侈 五 人 并 保留 两 位 小 数 后 再 计算 也 没 问 
题 吧 ? 我 试 试 (图 2-14 )。 


rz:= 3-01x(2x3-2) =3 —0.4=2.6 
:=2.6—0.1x(2x2.6—2)=2.6—0.3=2.3 
7t:=2.3—0.1x(2x2.3—2)=2.3—0.2=2.1 
zt:=2.1—0.1x(2x2.1-2)=2.1—02=1.9 (2.37 
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图 2-14 


真 让 人 着 急 。 


轨 
河 
性 
济 
号 


这 次 渐渐 接近 x = 1 了， 只 是 i 


就 是 这 样 。 如 果 n 较 大 ， 那 么 zx := x 一 n(2x 一 2) 会 在 两 个 值 上 跳 
来 跳 去 ， 甚 至 有 可 能 远离 最 小 值 。 这 就 是 发 散 状 态 。 而 当 7 较 小 


时 ， 移 动量 也 变 小 ,更 新 次 数 就 会 增加 ， 但 是 值 确 实 是 会 朝 着 收 
敛 的 方向 而 去 。 


原来 是 这 么 回 事 啊 ， 我 现在 非常 明白 了 。 


那 我 们 回 过 头 来 看 一 下 目标 函数 (0)。 还 记得 目标 函数 的 表达 
式 吗 ? 


你 是 说 表达 式 2.3.2 吗 ? 


五 (0) = 3 (y9 一 fo(zO))’ (2.3.8) 


是 的 。 这 个 目标 函数 和 刚才 例子 中 的 g(z) 同样 是 开口 向 上 的 形状 ， 
所 以 刚才 讨论 的 内 容 也 同样 适用 于 它 。 不 过 这 个 目标 函数 中 包含 
fo(z)， 从 表达 式 2.3.1 又 可 以 看 出 ，jo(z) 拥 有 bo 和 091 两 个 参数 。 
也 就 是 说 这 个 目标 函数 是 拥有 bo 和 0 的 双 变 量 函 数 ， 所 以 不 能 用 
普通 的 微分 ， 而 要 用 偏 微分 。 如 此 一 来 ， 更 新 表达 式 就 是 这 样 的 。 四 


oF 
to := 00 — 159 础 
OF 
01 := 人 1 一 1 


001 (2.3.9) 


我 感觉 开始 变 难 了 …… 表 达 式 2.3.5 的 g(x) 变 成 了 互 ， 然 后 要 用 偏 
微分 对 吧 ? 


关于 偏 微分 的 更 多 内 容 ， 请 参考 附录 A.3。 


是 的 。 下 面 我 们 实际 地 计算 一 下 偏 微 分 。 首 先 从 表达 式 2.3.9 的 6 ~ 


的 偏 微分 表达 式 开 始 。 绫 乃 ， 这 个 你 会 吗 ? 攻 

这 个 …… 钦 , 巨 中 怎么 没有 9 啊 ? 啊 ， 对 了 ，b 在 .名 (z) 里 面 呢 。 
还 得 去 展开 平方 ， 好 像 很 难 呀 …… 这 
岂 

正面 去 突破 它 是 很 麻烦 的 ,我们 可 以 使 用 复合 函数 的 微分 。 就 像 
你 刚才 说 的 ，E(9) 中 有 fo(z)， 而 fo(z) 中 又 有 660， 所 以 我 们 可 以 加 
这 样 分 别 去 考虑 它们 。 a 
u = E(0) 


v= fo(7x) (2.3.10) 
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然后 再 像 这 样 阶梯 性 地 进行 微分 。 


Ou Ou 0v 


300 dv 00o (2.3.11) 


原来 这 就 是 复合 函数 的 微分 。 那 我 先 从 ww 对 wv 微分 的 地 方 开 始 计 
算 。 把 函数 展开 后 再 分 别 求 微 分 就 行 了 吧 ? 


- ") (2.3.12) 


在 最 后 一 行 ， 常 数 与 3 相抵 消 了 ， 微 分 后 的 表达 式 变 简 单 了 吧 ? 
这 就 是 一 开始 乘 以 3 的 理由 。 


原来 是 这 么 回 事 啊 。 表 达 式 确实 变 整 洁 了 。 下 面 就 是 v 对 bo 进行 
微分 的 部 分 了 。 


0 _ 2 
800 00o 


至 证 (2.3.13) 


做 得 不 错 。 接 下 来 只 要 依照 复合 函数 的 微分 表达 式 2.3.11 将 各 部 
分 的 结果 相 乘 ， 就 可 以 得 到 对 9% 进行 微分 的 结果 了 。 对 了 ,不 要 
忘 了 把 表达 式 2.3.12 中 的 vv 替换 回 包 (z) 。 


让 各 部 分 相 乘 ， 是 这 样 吗 ? 


Ou Ou Ov 
380 3 80 
二 11.1 
0 
3 (jeO) 要 yo 
i=1 (2.3.14) 


计算 正确 ! 接 下 来 再 算 一 下 对 91 进行 微分 的 结果 吧 。 


也 就 是 解 出 这 个 表达 式 对 吧 ? 我 试 试看 。 


Ou Ou 0v 


901 dv 50; (2.3.15) 


wu 对 v 微 分 的 部 分 与 表达 式 2.3.12 完全 相同 ， 所 以 这 次 只 要 计算 v 
对 b 微分 的 部 分 就 行 了 。 
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3 咽 ， 仔 细 想 想 确实 是 这 样 。w 对 0 微分 …… 是 这 样 吗 ? 


0v 8 
0 = 0 十 O17) 


一: 久 (2.3.16) 


可 对 的 。 那 最 终 ww 对 0 微分 的 结果 是 什么 样 的 呢 ? 
| 


Ou Ou om 
O01 Ov 60 
Es A 
> VY ) ~ 
( f(z®) — 网 jz 
i=1 (2:3,17) 


正确 ! 所 以 参数 go 和 0 的 更 新 表达 式 就 是 这 样 的 ， 这 里 没 问题 吧 ? 


下 二 记 = I (f(z®) 0 ) 
el 


嗯 ， 这 so: 阿 。 只 要 根据 这 个 表达 式 来 更 新 90 
和 91， 就 可 以 找到 正确 的 一 次 函数 fo(z) 了 吗 ? 


是 的 。 用 这 个 方法 找到 正确 的 如 (z)， 然 后 输入 任意 的 广告 费 ， 就 四 
可 以 得 到 相应 的 点 击 量 。 这 样 我 们 就 能 根据 广告 费 预 测 点 击 量 了 。 


仅仅 是 为 了 找到 这 么 简单 的 一 次 函数 就 费 了 很 多 事 …… 而 且 这 个 
过 程 也 不 是 很 有 意思 。 


一 开始 我 就 说 过 ， 为 了 便于 说 明 我 简化 了 问题 ， 也 许 是 因为 这 个 
你 才 没 能 感受 到 其 中 的 妙 处 。 我 们 去 看 看 难 一 些 的 问题 吧 。 


0 训 。 我 有 点 累 了 ， 想 休息 一 下 。 我 们 一 起 吃 甜 甜 圈 吧 1! 


个 好 呀 。 


好 好 吃 ! 


次 期 


反 很 好 吃 吧 ? 我 最 喜欢 甜食 了 。 哎 ， 咱 们 要 接着 讲 回归 对 吧 ? 


是 啊 。 我 们 将 刚才 关于 回归 的 话题 再 稍微 扩展 一 下 吧 。 
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这 样 难度 又 会 突然 加 大 吧 .…… 


只 要 刚才 讲 的 内 容 你 都 理解 了 ， 就 不 会 觉得 接 下 来 要 讲 的 很 难 了 。 
还 记得 我 们 定义 的 用 于 预测 的 一 次 函数 吗 ? 


SE 时 


表达 式 2.3.1 吗 ? 记得 ， 它 是 这 样 的 。 


fo(¥)= 00+ O07 (2.4.1) 


因为 是 一 次 函数 ， 所 以 它 的 图 像 是 直线 ( 图 2-15 )。 


本 
直 


击 800 Oe 
里 @ --- 
一 全 
600 oa 
Epa 
400 Es 
一 -@ @ 
200 
> 
100 200 300 ”广告 费 
Zz 
图 2-15 


嗯 ,确实 是 直线 。 刚 才 我 们 用 微分 求 出 了 这 个 函数 的 斜率 和 截 距 。 


对 。 不 过 ， 对 于 一 开始 我 在 图 中 添加 的 数据 点 来 说 ， 其 实 曲 线 比 
直线 拟 合 得 更 好 ( 图 2-16 )。 


点 2 个 
击 ao 这 
600 十 本 
400 十 ee 
_- 6 
200 十 一 
贡 
100 200 300 广告 费 
图 2-16 
铬 训 的 确 是 这 样 ! 曲线 看 起 来 更 拟 合 数据 。 
本 人 、 ON 
我 们 把 fo(z) 定 义 为 二 次 函数 ， 就 能 用 它 来 表示 这 条 曲线 了 。 各 
方 (人 三 00 十 0 十 0272? (2.4.2) 
人 
贡 
对 哦 。 确 实学 过 二 次 函数 是 曲线 。 
小 


或 者 用 更 大 次 数 的 表达 式 也 可 以 。 这 样 就 能 表示 更 复杂 的 曲线 了 。 有 


fo(x) =00 十 0 十 0 十 0323 十 :十 OZ (2.43) 
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经 训 。 这 个 好 历 害 啊 。 我 们 可 以 随便 决定 及 (2) 是 什么 样 的 函数 吗 ? 


2 


咽 ， 不 过 对 于 要 解决 的 问题 ， 在 找 出 最 合适 的 表达 式 之 前 ， 需 要 
不 断 地 去 尝试 。 
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不 是 函数 次 数 越 大 ， 拟 合 得 越 好 吗 ? 


虽然 次 数 越 大 拟 合 得 越 好 ， 但 难免 也 会 出 现 过 拟 合 的 问题 。 现 在 


说 这 个 就 有 些 跑题 了 ， 我们 等 一 会 儿 再 说 它 吧 。 


来 然 ， 世 上 的 


E 情 都 不 是 那么 简单 的 呀 …… 


回 到 刚才 二 次 函数 的 话题 。 我 们 增加 了 9 这 个 参数 ， 你 知道 9 更 
新 表达 式 的 推导 方法 吗 ? 


和 之 前 


没 错 ! 和 之 前 一 样 , 设 u = EB(9)、 


样 ， 用 目标 函数 对 92 


偏 微 分 求 出 更 新 表达 式 。 


4 对 微分 的 部 分 应 该 是 一 相 


有 微分 就 能 求 出 来 了 吧 ? 


v 二 fo(z)， 然后 试 着 用 对 0 


FF 的 ， 所 以 我 们 只 要 求 v 对 92 的 微分 


Se = (00 十 O17 十 02z2) 


就 行 了 吧 ? 
Du _ 
00。 00» 


归 


(2.4.4) 


文 样 的 。 


00 := 00 一 n》, (peg) 本 9 
= 

0 = 7 (jeO) yO) 
4 


02 := 02 —nD (fo(z®) —y®) ze 
i 


(2.4.5) 


[A 那么 即使 增加 参数 ， 比 如 有 6s 、04 等 ， 我 们 依然 可 以 用 同样 的 方 
法 求 出 它们 的 更 新 表达 式 吗 ? 


是 的 。 像 这 样 增加 函数 中 多 项 式 的 次 数 ， 然 后 再 使 用 函数 的 分 析 
方法 被 称 为 多 项 式 回 归 。 


之 前 我 还 以 为 会 很 难 ， 都 有 些 紧张 了 …… 现 在 放心 多 了 。 


关于 回归 还 有 些 内 容 ， 我 们 一 口气 把 它 说 完 吧 。 


禾 训 这 次 难度 要 上 升 了 吧 .…… 


之 前 我 们 是 根据 广告 费 来 预测 点 击 量 的 。 
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因 ， 是 以 这 个 为 前 提 的 。 


但 是 ,实际 中 要 解决 的 很 多 问题 是 变量 超过 2 个 的 复杂 问题 。 


你 的 意思 是 对 于 那 种 问题 ， 要 用 到 刚才 讲 多 项 式 回 归 时 提 到 的 zx? 
和 z3 等 多 次 项 吗 ? 


不 是 哦 。 多 项 式 回归 问题 中 确实 会 涉及 不 同 次 数 的 项 ， 但 是 使 用 
的 变量 依然 只 有 广告 费 一 项 。 


多 ,是 这 样 吗 ?你 说 的 我 有 点 不 明白 啊 。 


我 们 稍微 扩展 一 下 之 前 设置 的 问题 吧 。 之 前 只 是 根据 广告 费 来 预 
测 点 击 量 ,现在 呢 ， 决定 点 击 量 的 除了 广告 费 之 外 ,还 有 广告 的 
展示 位 置 和 广告 版 面 的 大 小 等 多 个 要 素 。 


啊 ， 我 懂 了 。 原 来 你 说 变量 超过 2 个 是 这 个 意思 。 


不 过 之 前 变量 只 有 广告 费 ， 所 以 我 们 还 可 以 用 图 来 展示 ,现在 变 
量 达 到 了 3 个 以 上 ， 就 无 法 可 视 化 了 。 后 面 我 们 也 就 无 法 画 出 图 
像 了 。 


你 ， 想 不 出 接 下 来 要 做 什么 …… 


， 那 么 即使 变量 增加 了 ， 也 


相信 自己 的 实力 ! 我 一 定 会 跟 上 的 …… 


为 了 让 问题 尽 可 能 地 简单 ， 这 次 我 们 只 考虑 广告 版 面 的 大 小 ， 
广告 为 ws 产 告 术 的 交 为 oo 产 千 和 的 省 几 ai， 那 友 太 可 以 
表示 如 下 ， 这 里 有 没有 问题 ? 


fo(zX1, To2, T3) 三 0 十 0121 十 027a 十 0373 (2.5.1) 


函数 接收 的 变量 之 前 只 有 工 个 z， 现 在 增加 到 3 个 了 。 只 有 这 一 点 
变化 ， 所 以 我 没有 问题 。 


那 这 个 时 候 ， 该 如 何 去 求 参数 90,… , 03 呢 ? 


分 别 求 目标 函数 对 66，… ,gs 的 偏 微分 ， 然后 更 新 参数 就 行 了 吧 ? 


没 错 ! 看 来 你 已 经 熟悉 这 套 做 法 了 。 


哎哟 ~ 这 次 也 挺 简单 的 ,大 好 了 。 那 么 流程 上 接 下 来 要 做 的 就 是 
实际 去 求偶 微分 了 吧 ? 


这 个 还 得 等 一 下 ， 我 们 可 以 先 试 着 简化 表达 式 的 写法 。 


表达 式 的 写法 ? 什么 意思 ? 
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刚才 我 们 说 有 z1、z2、zs 共 3 个 变量 ,下面 我 们 把 它 推 广 到 有 
个 变量 的 情况 。 这 时 候 fo 会 变 成 什么 样子 呢 ? 


只 要 写 出 nn 个 变量 就 行 了 吧 ， 这样 对 吗 ? 


folz1, 5 一 00 十 OZ1 十 :十 OZn (2.5.2) 


虽 ， 对 的 。 不 过 每 次 都 像 这 样 写 个 x 岂 不 是 很 麻烦 ”所 以 我 们 
还 可 以 把 参数 9 和 变量 x 看 作 向 量 。 


关于 向 量 的 更 多 内 容 ， 请 参考 附录 A.5。 


(9 我 记得 向 量 有 大 小 和 方向 ， 并 要 用 箭头 来 表示 。 这 里 要 用 到 它 吗 ? 


00 
0 ， 
0= | 0 6 “ 
2 
On, (2.5.3) 
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对 ! 你 还 记得 要 用 黑体 ， 真 厉害 。 不 过 有 一 点 很 可 惜 ， 你 写 的 0 
和 z 的 维度 不 同 ， 处 理 起 来 会 很 麻烦 。 


你 这 么 说 我 也 没 办 法 改 呀 ,我 已 经 把 该 写 的 符号 都 写 上 了 了 ……' 


向 量 的 元 素 不 一 定 全 都 是 符号 哦 ， 可 以 这 样 修改 你 写 的 向 量 。 


Oo 1 

O01 Tl1 

On Tn (2.5.4) 
效 ， 可 以 随便 加 上 1 工 吗 ? 


等 到 开始 计算 时 你 就 明白 了 ， 像 这 样 一 开始 就 加 上 工 反 而 更 自然 。 
9 的 下 标 是 从 0 开始 的 ,为 了 与 其 相配 合 , 设 zo=1,， 让 z 的 第 
一 个 元 素 为 zo 会 更 加 整齐 。 


On, 2 (2.5.5) 
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那么 , 把 9 转 置 之 后 ,计算 一 下 它 与 相 乘 的 结果 吧 。 


也 就 是 计算 97z 吧 ? 把 二 者 相应 的 元 素 相 乘 ， 然 后 全 部 加 起 来 。 


OTz 一 OQoxo 本 O171 十 QT2 二 Oy (2.5.6) 


这 个 表达 式 应 该 见 过 吧 ? 注意 一 下 zo = 1 的 部 分 。 


这 不 就 是 刚才 的 表达 式 2.5.2 吗 ? ! 


是 的 。 也 就 是 说 ， 之 前 用 多 项 式 表 示 的 fo， 可 以 像 这 样 用 向 量 来 
表示 。 虽 然 我 们 说 的 是 向 量 ， 但 实际 在 编程 时 只 需 用 普通 的 一 维 
数组 就 可 以 了 。 


fo(x) = 0Iz (2.5.7) 


哇 ， 表 达 式 变 得 好 简单 啊 ! 刚才 你 说 要 简化 表达 式 的 写法 ， 原 来 
么 回 事 啊 。 


是 的 。 接 下 来 我 们 就 使 用 fo (xz) 来 求 参数 更 新 表达 式 吧 ， 方 法 与 之 
前 一 样 。 


好 的 。 使 用 向 量 …… 黎 ? 使 用 向 量 又 该 怎么 求 呢 ? 


设 久 = 已 (0)、w = Jo(z) 的 部 分 是 一 样 的 。 为 了 一 般 化 ,我们 可 以 
考虑 对 第 7 个 元 素 0; 偏 微分 的 表达 式 。 


Ou Ou 0v 


90; dv 00; (2.5.8) 


[LAY 我 仙 了 。 对 "微分 的 部 分 是 一 样 的 ， 所 以 只 需要 求 " 对 0; 的 微 
分 就 好 了 。 这 样 做 对 吗 ? 


rs) 由 
一 09 (bozo F OZ1 十 … 十 On 
一 7 (2.5.9) 
不 错 ! 那么 第 j 个 参数 的 更 新 表达 式 就 是 这 样 的 。 “ 


0; := 0; — nS ( Jo(zG) — Wa 2510) 过 
“一 1 


贡 

WAY 之 前 还 给 每 个 0 都 写 了 更 新 表达 式 呢 ， 原 来 它们 可 以 汇总 为 一 个 一 
以 电大 ”表达 式 啊 。 好 厉害 ! 
Ul 

姓 

量 的 回归 称 为 多 重 回归 。 你 觉得 难 不 难 ? _ 

我 想象 中 应 该 是 更 难 的 ， 但 现在 来 看 似乎 没 问题 ! 表达 式 汇总 为 关 


一 个 后 就 变 得 简单 了 ， 这 太 好 了 。 


可 以 基于 一 般 化 的 思路 来 思考 问题 正 是 数学 的 优点 。 
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对 了 ， 所 谓 的 最 速 下 降 法 就 是 对 所 有 的 训练 数据 都 重复 进行 计算 
对 吧 ? 你 说 过 现在 可 以 收集 大 量 的 数据 ， 但 是 训练 数据 越 多 ， 循 
环 次 数 也 就 越 多 ,那么 计算 起 来 不 就 非常 花 时 间 了 吗 ? 


果然 是 平时 在 工作 中 就 会 编程 的 人 ， 非 常 注重 效率 。 


对 呀 ,仅仅 是 能 跑 起 来 可 不 行 。 


正如 你 所 说 , 计算 量 大 、 计 算 时 间 长 是 最 速 下 降 法 的 一 个 缺点 。 


果然 如 此 ， 那 么 没有 效率 更 高 一 些 的 算法 吗 ? 


当然 有 了 。 


我 们 最 后 就 来 看 一 下 随机 梯度 下 降 法 这 个 算法 吧 。 


这 是 一 个 效率 高 的 算法 吗 ? 


咽 。 不 过 在 介绍 它 之 前 ， 还 要 说 一 下 ,最 速 下 降 法 除了 计算 花 时 
间 以 外 ， 还 有 一 个 缺点 。 


| 托 刘 次， 还 有 缺点 > 


咽 ， 那 就 是 容易 陷入 局 部 最 优 解 。 


这 是 什么 意思 呀 ? 


在 讲解 回归 时 ， 我 们 使 用 的 是 平方 误差 目标 函数 。 这 个 函数 形式 
简单 ， 所 以 用 最 速 下 降 法 也 没有 问题 。 现 在 我 们 来 考虑 稍微 复杂 
一 点 的 ， 比 如 这 种 形状 的 函数 (图 2-17 )。 山 


图 2-17 


托 证 】 这 个 函数 怎么 看 起 来 软 编 编 的 …… 


次 期 


用 最 速 下降 法 来 找 函 数 的 最 小 值 时 ， 必 须 先 要 决定 从 哪个 z 开始 
找 起 。 之 前 我 用 9(z) 说 明 的 时 候 是 从 x = 3 或 者 x = -1 开始 的 ， 
还 记得 吗 ? 
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你 这 么 一 说 我 想起 来 了 。 不 过 为 什么 要 从 3 或 者 一 1 开始 找 呢 ? 


那 是 为 了 讲解 ， 我 随便 选 的 。 


样 啊 ， 那 实际 去 解决 问题 时 ， 也 可 以 随便 选 个 初始 值 吗 ? 


周 


选用 随机 数 作为 初始 值 的 情况 比较 多 。 不 过 这 样 每 次 初始 值 都 会 
变 ， 进 而 导致 陷入 局 部 最 优 解 的 问题 。 


我 还 是 不 太 明 白 这 是 什么 意思 …… 


我 们 假设 这 张 图 中 标记 的 位 置 就 是 初始 值 (图 2-18 )。 


从 这 里 开始 


图 2-18 


/@ 啊 ， 我 好 像 有 点 明白 了 。 从 这 个 点 开始 找 ， 似 乎 可 以 求 出 最 小 值 。 


那 你 说 说 ， 什 么 情况 下 反而 求 不 出 最 小 值 呢 ? 


是 不 是 把 这 里 作为 初始 值 的 情况 〈 图 2-19 )? 好 像 没 计算 完 就 会 


9 
周 


最 小 值 省 


图 2-19 
邮 
电 没 错 。 这 就 是 陷入 局 部 最 优 解 。 
[NY 这 个 算法 虽然 简单 ， 但 是 容易 发 生 各 种 问题 咱 。 这 可 是 你 花费 了 
es 这 么 多 时 间 教 给 我 的 算法 ， 太 遗憾 了 。 


没事 儿 ， 最速 下 降 法 也 不 会 白 学 ， 随 机 梯度 下 降 法 就 是 以 最 速 下 
降 法 为 基础 的 。 


Ve 是 这 样 啊 。 


你 还 记得 最 速 下 降 法 的 参数 更 新 表达 式 吗 ? 
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咽 


区， 就 是 表达 式 2.5.10 吧 ? 


0; = 0 -nD (fo(z®) — 
2 


yO a (2.6.1) 


对 。 这 个 表达 式 使 用 了 所 有 训练 数据 的 误差 ， 而 在 随机 梯度 下 降 


法 


P 会 随机 选择 一 个 训练 数据 ， 并 使 用 


式 中 的 就 是 被 随机 选中 的 数据 索引 。 


它 来 更 新 参数 。 这 个 表达 


0; := 0; — (fa(w®) 一 yj (2.6.2) 


2 变 没 啦 。 


最 速 下 降 法 更 新 1 次 参数 的 时 间 ， 随 机 梯度 下 降 法 可 以 更 新 nn 次 。 


使 


最 优 解 。 


答案 吗 ? 


真是 不 可 思议 ……: 


此 外 ， 随 机 梯度 下 降 法 由 于 训练 数据 是 随机 选择 的 ， 更 新 参数 时 
] 的 又 是 选择 数据 时 的 梯度 ， 所 以 不 容易 陷入 目标 函数 的 局 部 


随机 选择 训练 数据 来 学 习 这 种 做 法 看 起 来 有 些 甫 衍 ， 真 的 能 找到 


蜂 然 有 些 不 可 思议 ， 但 实际 上 的 确 会 收敛 。 


我 们 前 面 提 到 了 随机 选择 1 个 训练 数据 的 做 法 ， 此 外 还 有 随机 选 


择 mm 个 训练 数据 来 更 新 参数 的 做 法 。 


3 这 样 啊 ， 那 具体 选择 几 个 是 可 以 由 自己 决定 的 吧 ? 


嗯 ， 设 随机 选择 m 个 训练 数据 的 索引 的 集合 为 天， 那么 我 们 这 样 


0 全 从 二 所 2 (fo(w®) 等 yO ja (2.6.3) 


keEK 


关于 ,2 的 更 多 内 容 ， 请 参考 附录 A.1。 


假设 训练 数据 有 100 个 ， 那 么 在 m = 10 时 ,创建 一 个 有 10 个 随 . 
机 数 的 索引 的 集合 ， 例 如 K = {61, 53, 59, 16, 30, 21, 85, 31, 51, OW 
10}， 然 后 重复 更 新 参数 就 行 了 吗 ? 下 


就 是 这 样 。 这 种 做 法 被 称 为 小 批量 ( mini-batch ) 梯度 下 降 法 。 


上 
山 
这 像 是 介 于 最 速 下 降 法 和 随机 梯度 下 降 法 之 间 的 方法 。 ee 
小 
Ul 


不 管 是 随机 梯度 下 降 法 还 是 小 批量 梯度 下 降 法 ,我 们 都 必须 考虑 则 
学 习 率 m。 把 mn 设置 为 合适 的 值 是 很 重要 的 。 


那 学 习 率 是 如 何 决定 的 呢 ? 也 是 随意 决定 的 吗 ? 


次 期 


这 是 一 个 很 难 的 问题 。 可 以 通过 反复 尝试 来 找到 合适 的 值 ， 不 过 ， 
除 此 之 外 还 有 几 个 办 法 ， 你 可 以 研究 一 下 ， 我 觉得 会 很 有 意思 。 
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好 呀 。 不 过 今天 我 学 到 了 好 多 东西 ， 现 在 有 点 累 了 …… 等 我 实现 
的 时 候 要 是 碰 到 了 问题 再 去 研究 好 了 。 


@ 
各 | 也 好 。 还 没 开始 做 就 什么 都 往 脑子 里 塞 ， 会 把 头 撑 破 的 。 


是 啊 ， 谢 谢 你 ! 


一 一 IEa 
学 习 分 类 
基于 图 像 大 小 进行 分 类 


今天 ， 绫 乃 请 美 绪 教 她 关于 “分 类 ”的 知识 。 
绫 乃 想 对 时 装 的 照片 进行 分 类 ， 她 能 不 能 做 到 呢 ? 
这 一 章 会 出 现 较 难 的 术语 ， 不 过 美 绪 会 耐心 讲解 的 ， 
大 家 和 绫 乃 一 起 来 学 习 吧 。 


那 今天 我 们 就 来 看 一 下 分 类 吧 。 和 讲解 回归 的 时 候 一 样 ， 我 将 结 
合 具 体 的 例子 来 讲 ， 没 问题 吧 ? 


好 的 好 的 。 具 体 的 例子 就 像 我 将 来 的 男 朋 友 一 样 重要 ! 


又 是 一 个 让 人 摸 不 着 头脑 的 比喻 …… 好 吧 ， 那 我 们 从 哪儿 讲 起 呢 ? 


对 了 ,我 花 了 一 点 儿 钱 打 广 告 之 后 ,我 的 Web 网 站 的 访问 数 就 增 
加 了 。 现 在 网 站 上 积累 了 许多 时 装 照片 ， 所 以 我 们 就 从 时 装 照片 
的 分 类 开始 讲 怎么 样 ? 


图 像 是 高 维度 数据 ， 贸 然 开 始 人 处 理会 有 点 难 啊 …… 


啊 …… 好 吧 。 好 不 容易 积累 了 照片 ， 本 来 想 用 起 来 的 …… 


这 样 吧 ， 我 们 不 去 考虑 图 像 本 身 的 内 容 ， 只 根据 尺寸 把 它 分 类 为 
纵向 图 像 和 横向 图 像 ， 你 看 怎么 样 ? 


把 图 像 分 成 两 种 类 别 …… 这 就 是 二 分 类 问题 吧 ? 


没 错 。 只 要 看 一 眼 图 像 尺 寸 ,马上 就 可 以 知道 它 是 纵向 的 还 是 横 
向 的 。 我 觉得 这 种 难度 的 问题 适合 作为 第 一 个 例子 。 


(A oe 简单 的 问题 当然 很 好 ， 不 过 如 果 太 简单 ， 会 不 会 就 没有 挑战 的 乐 
趣 了 ? 


我 懂 你 的 意思 。 这 个 问题 虽然 很 简单 ， 却 很 适合 用 来 介绍 分 类 ， 一 
所 以 放心 好 了 。 


项 

区 3 好 的 ， 那 我 就 洗 耳 菇 听 了 。 
-ON : = 
让 
D 
你 看 这 张 图 像 是 纵向 的 还 是 横向 的 (图 3-1)? 


知 
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图 3-2 
人 横向 的 。 
个 也 就 是 说 ， 我 们 现在 有 了 两 个 这 样 的 训练 数据 ( 表 3-1 )。 
表 3-1 
宽 高 形状 
80 150 纵向 
160 50 横向 


原来 如 此 ， 高 和 宽 的 部 分 是 数据 ， 形 状 的 部 分 是 标签 。 


是 的 。 设 z 轴 为 图 像 的 宽 、y 轴 为 图 像 的 高 ， 那 么 把 训练 数据 展现 
在 图 上 就 是 这 样 的 ( 图 3-3 )， 没 问题 吧 ? 


到 80 x 150 
9 (纵向 ) 
1504--..- 
160 x 50 
(横向 ) 
50 | 2 
- 1 > 
80 160 宽 
图 3-3 
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EC 白色 的 点 是 纵向 图 像 ， 黑色 的 点 是 横向 图 像 ， 对 吧 ? 嗯 …… 意 思 
S 我 大 概 懂 了 。 


/很 供 、 不过， 只 有 两 个 训练 数据 确实 太 少 了 ， 再 增加 一 些 数据 色 ”一 


Xk ( 表 3-2 )。 


才 
表 3-2 
宽 高 形状 本 
80 150 纵向 
小 
60 110 纵向 ND 
才 
35 130 纵向 
160 50 横向 
160 20 横向 
125 30 横向 


小 

项 
癌 80 x 150 EE 

35 x 130 了 

让 
Ul 

十 

160 x 50 
60 x 110 
125 x 30 De wx 六 

宇 

yl 

宽 六 

图 3-4 
咽 


很 好 。 如 果 只 用 一 条 线 将 图 中 白色 的 点 和 黑色 的 点 分 开 ， 你 


觉得 这 条 线 该 怎么 画 ? 
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yl 那 肯定 要 这 样 画 了 (图 3.5)。 


齐 - 
人 / 
/ 
/ 
# 
0° / 
/ 
O 〇 / 
- 
9 / 
R 
/ 
7 
/ 
六 
是 @ 
5 
/ 多 
/ @ 
洒 
7 > 
/ 人 
见 
图 3-5 


是 的 。 这 次 分 类 的 目的 就 是 找到 这 条 线 。 


fi 原来 是 这 样 。 只 要 找到 这 条 线 ， 就 可 以 根据 点 在 线 的 哪 一 边 来 关 
二 大 断 图 像 是 横向 还 是 纵向 的 了 。 


| 3.2 | 内 积 


WL 找到 一 条 线 ， 这 也 就 意味 着 我 们 要 像 学 习 回 归 时 那样 ， 求 出 一 次 
函数 的 斜率 和 截 距 吧 ? 


不 是 的 ， 这 个 又 不 一 样 了 。 


娩 ， 不 是 吗 ? 这 条 线 看 起 来 也 像 是 有 截 距 和 和 斜率 的 一 次 函数 啊 …… 


但 这 次 的 目的 是 找 出 向 量 哦 。 


啊 ， 向 量 又 出 现 了 …… 


关于 向 量 和 内 积 ( 后面 会 讲 到 ) 的 更 多 内 容 ， 请 参考 附录 A.6。 


分 类 用 图 形 来 解释 更 容易 理解 ， 所 以 把 它 想 象 为 大 小 和 方向 的 、 
带 箭 头 的 向 量 比较 好 。 


我 没 听 懂 什么 意思 ， 再 详细 讲 一 下 吧 。 


刚才 你 画 的 那 条 线 ， 是 使 权重 向 量 成 为 法 线 向 量 的 直线 。 设 权重 
向 量 为 w， 那么 那 条 直线 的 表达 式 就 是 这 样 的 。 


2 :和 一 (0 (3.2.1) 


啊 ， 越 来 越 难 了 …… 权 重 向 量 到 底 是 什么 ? 这 个 表达 式 的 意思 我 
也 完全 不 理解 …… 


权重 向 量 就 是 我 们 想 要 知道 的 未 知 参数 ，w 是 权重 一 词 的 英 
文 weight 的 首 字母 。 上 次 学 习 回 归 时 ， 我 们 为 了 求 未 知 参数 
6 做 了 很 多 事情 ， 而 w 和 0 是 一 样 的 。 
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所 以 它们 都 是 参数 ， 只 是 叫 法 不 同 。 


我 倒是 记得 内 积 的 计算 方法 …… 


(3 
各 | 咽 。 表 达 式 3.2.1 是 两 个 向 量 的 内 积 ， 你 知道 内 积 吗 ? 


实 向 量 空间 的 内 积 是 各 相应 元 素 乘积 的 和 ， 所 以 刚才 的 表达 式 也 
可 以 写成 这 样 。 


n 
20 .2 一 wi = 
i=1 (3.2.2) 


对 对 ， 内 积 是 这 样 算 的 。 现 在 要 考虑 的 是 有 宽 和 高 的 二 维 情况 ， 
所 以 n==2 就 可 以 了 吧 ? 


是 的 , 下面 具体 地 展开 2 符号 。 


20 .和 一 1Z1 十 27Z2 一 (0 (3.2.3) 


何 嗯 ,这 里 我 懂 了 。 还 有 ， 我 记得 法 线 是 垂直 的 呀 ? 


关于 法 线 的 更 多 内 容 ， 请 参考 附录 A.6。 


区 


是 的 。 法 线 是 与 某 条 直线 相 垂 直 的 向 量 。 当 你 哪里 不 明白 时 ， 代 
入 具体 的 值 来 看 一 下 就 容易 理解 了 。 比 如 我 们 设 权 对 


ws 1), 


向 量 为 


那么 刚才 的 内 积 表达 式 会 变 成 什么 样 呢 ? 


只 要 代入 就 好 了 对 吧 ? 是 这 样 吗 ? 


是 的 。 移 项 变形 之 后 ， 


一 1 的 直线 ( 


0 T= WIXI WT 
一 1.2Z1 十 1.22 


三 2 和 1 十 2 三 0 


图 3-6 )。 


啊 ， 原 来 内 积 表 达 式 表示 的 是 这 样 的 直线 呀 。 


(3.2.4) 


表达 式 变 成 za = -x1 了。 这 就 是 斜率 为 


是 的 哦 。 在 这 张 图 上 再 画 上 刚才 确定 的 权重 向量 w = (1,1) 就 更 
容易 理解 了 (图 3-7 )。 
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图 3-7 


3 权重 向 量 ww 和 这 条 直线 是 垂直 的 ! 


这 就 是 “使 权重 向 量 成 为 法 线 向 量 的 直线 ”在 图 形 上 的 解释 。 大 
概 懂 了 吧 ? 


咽 ， 有 意思 。 说 到 图 形 上 的 解释 ， 我 想起 了 用 向 
和 cos 计算 内 积 的 表达 式 …… 好 像 是 这 样 的 。 


之 间 的 夹 角 0 


由 | 


wT=|w|:|z|:cos0 (3.2.5) 


这 是 内 积 的 另 一 个 表达 式 。 用 这 个 表达 式 也 没有 问题 。 表 达 式 中 
的 |w| 和 |z| 是 向 量 的 长 ， 因 此 必定 是 正 数 。 所 以 要 想 使 内 积 》 

0， 只 能 使 cosg = 0。 要 想 使 cos9 = 0， 也 就 意味 着 0 = 90° 或 
0 = 270?。 这 两 种 情况 也 是 直角 。 


原来 如 此 。 像 这 样 与 ww 成 直角 的 向 量 有 很 多 ,它们 连 成 了 一 条 直线 。 


6 
人 从 不 同 的 角度 去 看 会 非常 有 意 轧 ， 而 且 这 么 做 也 会 加 深 我 们 的 


理解 。 


最 终 找到 与 我 画 的 直线 成 直 4 


a 


图 3-8 


是 的 。 当 然 ， 


找到 权重 向 量 ， 然 后 才能 得 到 


具体 要 如 何 求 出 权重 向 量 呢 ? 


基本 做 法 和 回归 时 相同 : 将 权 习 


和 的 权重 向 量 就 行 了 吗 (图 3-8 )? 


始 并 不 存在 你 画 的 那 种 直线 ， 而 是 要 通过 训练 


与 这 个 向 量 垂直 的 直线 ， 最 后 根据 
这 条 直线 就 可 以 对 数据 进行 分 类 了 。 


向 量 用 作 参 数 ， 创 建 更 新 表达 式 来 


更 新 参数 。 接 下 来 ， 我 要 说 明 的 就 是 被 称 为 感知 机 ( perceptron ) 


的 模型 。 


感知 机 ! 我 在 上 网 搜索 机 器 学 习 的 时 候 见 过 ， 


感觉 这 个 名 字 好 酷 啊 。 
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入 门 知识 里 经 常会 提 到 它 。 感 知 机 是 接受 多 个 输入 后 将 每 个 值 与 
各 自 的 权重 相 乘 ， 最 后 输出 总 和 的 模型 。 人 们 常用 这 样 的 图 来 表 
示 它 (图 3-9 )。 


原来 是 向 量 间 的 内 积 呀 。 这 张 图 我 好 像 也 见 过 。 


这 次 我 准备 从 图 形 的 角度 来 讲解 它 。 我 觉得 这 样 更 直观 、 更 易于 
理解 。 


这 样 啊 。 只 要 我 能 理解 ， 你 怎么 讲 都 行 。 


另外 ， 感 知 机 是 非常 简单 的 模型 ， 基 本 不 会 应 用 在 实际 的 问题 中 。 
但 它 是 神经 网 络 和 深度 学 习 的 基础 模型 ， 所 以 记 住 它 没 坏处 。 


啊 ， 原 来 它 是 那个 深度 学 习 的 基础 模型 呀 。 等 掌握 了 机 絮 学 习 的 
基础 知识 以 后 ， 我 还 想 学 深度 学 习 。 到 时 候 再 教 教 我 呀 。 


没 问题 ! 不 过 有 点 跑题 了 ， 我 们 还 是 先 来 详细 了 解 一 下 感知 机 吧 。 


在 介绍 参数 更 新 表达 式 之 前 ， 我 们 最 好 做 一 些 准备 工作 ， 我 还 是 
先 讲 一 下 这 部 分 吧 。 
全 哦 ， 好 像 还 挺 麻烦 的 …… 


| 3.3.1 | 训练 数据 的 准备 


首先 是 训练 数据 。 设 表示 宽 的 轴 为 zx:、 表 示 高 的 轴 为 zx， 用 Y 来 
表示 图 像 是 横向 还 是 纵向 的 ， 横 向 的 值 为 1、 纵 向 的 值 为 -1。 这 
些 都 没 问题 吧 ? 


没 问 题 。 画 成 表 就 是 这 样 的 吧 〈 表 3-3 )? 


表 3-3 
图 像 大 小 形状 wl 2 2 
80 x 150 纵向 80 150 三 了 
60 x 110 纵向 60 110 一 1 
35 x 130 纵向 35 130 = 
160 x 50 横向 160 50 1 
160 x 20 横向 160 20 1 
125 x 30 横 癌 125 30 1 


很 好 。 接 下 来 ， 根 据 参数 向 量 w 来 判断 图 像 是 横向 还 是 纵向 的 函 
数 ， 即 返回 1 或 者 -1 的 函数 f(z) 的 定义 如 下 。 这 个 函数 被 称 为 
判别 函数 。 


-1 (w:z<0) (3.3.1) 
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也 就 是 说 ,这 是 根据 内 积 的 符号 来 给 出 不 同 返 回 值 的 函数 吗 ? 这 
样 就 可 以 判断 图 像 是 横向 还 是 纵向 的 了 ? 


一 起 来 思考 一 下 吧 。 比 如 ， 与 权重 向 量 w 的 内 积 为 负 的 向 量 z 是 
什么 样 的 向 量 呢 ?用 图 形 来 解释 更 容易 理解 ， 所 以 我 们 利用 这 个 
包含 cos 的 表达 式 来 思考 。 


wT=|w|:|z|:cos0 (3.3.2) 


内 积 为 负 的 向 量 ……… 刚才 美 绪 说 |w| 和 |z| 必定 为 正 数 ， 所 以 决定 
内 积 符号 的 是 cos9 吧 ? 


是 的 ， 你 学 得 很 好 嘛 。 那 么 回忆 一 下 cos9 的 图 ， 它 什么 时 候 为 
负 呢 ? 


cosb 的 图 是 这 样 的 (图 3-10 )。 


图 3-10 


回答 正确 ! 那么 这 时 候 的 向 量 在 图 形 上 处 于 什么 位 置 呢 ? 


全 与 权重 向 量 w 之 间 的 夹 角 为 9， 在 90” < 0 < 270? 范围 内 的 所 有 


向 量 都 符合 条 件 …… 所 以 是 不 是 就 在 这 条 直线 下 面 、 与 权重 向 量 
方向 相反 的 这 个 区 域 (图 3-11 )? , 
山 
BB 中 
> ND 
7 山 
内 积 为 负 的 向 量 | 。“、、 
图 3-11 
可 没 错 ! 既然 这 个 都 知道 了 ， 那 么 使 内 积 为 正 的 向 量 也 知道 了 吧 ? 
(SE 小 
册 
3 就 是 与 负 的 区 域 相反 的 区 域 (图 3-12 )， 对 吧 ? 
. 中 
Ul 
山 
DB 内 积 为 正 的 向 量 


~ 
wl 
良 
送 ”项 


人 


图 3-12 
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没 错 。 能 像 这 样 在 大 脑 中 具体 地 想象 出 来 也 是 很 重要 的 。 


原来 可 以 根据 内 积 的 正 负 来 分 割 呀 ， 好 厉害 。 


内 积 是 衡量 向 量 之 间 相 似 程度 的 指标 。 结 果 为 正 ， 说 明 二 者 相似 ; 
为 0 则 二 者 垂直 ;为 负 则 说 明 二 者 不 相似 。 


内 积 原来 是 这 个 意思 ……' 学 校 里 我 可 能 也 学 过 ， 不 过 全 忘 了 。 


al 


] 就 会 忘 的 。 


| 3.3.2 | 权重 向 量 的 更 新 表达 式 


准备 工作 到 此 就 结束 了 。 在 这 个 基础 上 ， 我 们 可 以 这 样 定义 权重 
向 量 的 更 新 表达 式 。 


人 Ty (fo(wm®) #7) 

?20 :一 

w (fu(2®) = 多) (3.3.3) 
1 在 介绍 回归 的 时 候 也 出 现 过 ， 它 指 的 是 训练 数据 的 索引 ， 而 不 是 


1 次 方 的 意思 ， 这 一 点 一 定 要 注意 。 用 这 个 表达 式 重 复 处 理 所 有 训 
练 数据 ， 更 新 权重 向 量 。 


啊 ， 感觉 又 是 一 个 乱七八糟 的 表达 式 嘛 …… 


突然 遇 到 看 不 懂 的 表达 式 时 ， 先 不 要 慌 。 虽 然 表 达 式 整体 看 上 去 
wo 但 是 一 部 分 一 部 分 分 解 来 看 就 不 那么 难 了 。 好 好 地 

清楚 各 部 分 的 含义 ， 再 慢 慢 理解 整体 含义 就 好 了 。 之 前 我 们 不 
ee 


好 吧 ， 你 说 得 有 道理 。 那 我 们 先 从 表达 式 括号 中 的 f(z 中 ) yy 中 
开始 看 吧 ? 


好 啊 。 你 觉得 这 个 表达 式 是 什么 意思 ? 


通过 判别 函数 对 宽 和 高 的 向 量 x 进行 分 类 的 结果 与 实际 的 标签 y 
不 同 ? 也 就 是 说 ,判别 函数 的 分 类 结果 不 正确 。 


对 对 对 ， 是 这 个 意思 。 那 另外 一 个 f(z 中 ) = yG) 呢 ? 


这 个 的 意思 就 是 判别 函数 的 分 类 结果 是 准确 的 。 


这 也 就 是 说 ， 刚 才 的 更 新 表达 式 只 有 在 判别 函数 分 类 失败 的 时 候 
才 会 更 新 参数 值 。 


呵 ， 对 呀 。 分 类 成 功 的 时 候 是 直接 代入 w 的 ， 所 以 什么 都 没有 变 。 


对 的 。 那 接 下 来 看 一 下 分 类 失败 时 的 更 新 表达 式 吧 。 


由 :一刀 十 WOzO 吗 ? 我 不 太 明白 它 的 含义 …… 
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光 看 这 个 表达 式 的 话 是 会 觉得 很 难 。 一 边 把 学 习 过 程 实际 地 画 在 
图 上 ， 一 边 去 考虑 它 的 含义 可 能 就 容易 理解 了 。 首 先 在 图 上 随意 
画 一 个 权重 向 量 和 直线 吧 。 


fr 意 画 权重 向 量 ” 那 我 就 随意 画 了 ， 像 这 样 朝向 左下 方 的 也 行 吗 
8 ( 因 3-13)? 


图 3-13 


虽 ， 可 以 的 。 权 重 向 量 是 通过 随机 值 来 初始 化 的 ， 你 刚才 随意 画 
的 那个 向 量 就 可 以 是 初始 向 量 。 


就 像 我们 在 回归 时 随意 确定 初始 值 一 样 啊 。 


在 这 个 状态 下 ,假设 第 一 个 训练 数据 是 z0) = (125,30) (图 3-14 )， 
首先 我 们 就 用 它 来 更 新 参数 吧 。 


9 


z()125 x 30 一 一 


> Tl1 站 


图 3-14 


人 fp、 这 是 表 3-3 列举 的 训练 数据 中 的 一 个 吧 ? 标签 是 1， 它 表示 图 像 是 IN 
0 横向 的 ( 表 3-4 )。 


表 3-4 
| 图 像 大 小 | ”形状 ma za 
125 x 30 横向 125 30 1 


1 是 的 。 现 在 权重 向 量 w 和 训练 数据 的 向 量 z@) 二 者 的 方向 几乎 相 
鞍 反 ，w 和 z0) 之 间 的 夹 角 0 的 范围 是 90? < 0 < 270。 ， 内 积 为 负 。 
人 = 人 ”也 就 是 说 ,判别 函数 灵 (zG)) 的 分 类 结果 为 -1。 到 这 里 有 没有 则 


问题 ? 

没有 问题 。 训 练 数据 z0) 的 标签 V0 是 1， 所 以 f(z 中 ) 才 y? 泊 
说 明 分 类 失败 。 . 
那 我 们 在 这 里 应 用 刚才 的 更 新 表达 式 。 现 在 y= 1， 所 以 更 新 表 
达 式 是 这 样 的 ， 其 实 就 是 向 量 的 加 法 。 
凑 

w+YV ED = wr (3.3.4) 

托 信 向 量 的 加 法 而 已 ， 这 个 我 没 问 题 。w +z 中 是 这 样 的 吧 (图 315)3 
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> Tl 
(1) 


图 3-15 


是 的 。 这 个 多 十 2 中 就 是 下 一 个 新 的 ww， 夯 一 条 与 新 的 权重 向 量 
垂直 的 直线 ， 相 当 于 把 原来 的 线 旋 转 了 一 下 (图 3-16 )。 


图 3-16 


(h a 真 的 是 这 样 ! 刚才 z 中 与 权重 向 量 分 居 直 线 两 人 出 ， 现 在 它们 在 同 
一 侧 了 (图 3-17 )。 
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1 zt)125 x 30 一 一 


I 
I 
> Tl 
w+ wm) = 


Ul 


图 3-17 


T 


咽 ， 这 次 9 < 90”， 所 以 内 积 为 正 ， 判别 函数 f(z) 的 分 类 结果 为 贡 
1。 而 且 z0) 的 标签 也 为 1， 说 明 分 类 成 功 了 。 


新 参数 的 权重 向 量 呀 。 


洒 
江 
谎 
雇 
入 
出 


刚才 处 理 的 是 标签 值 y = 1 的 情况 ， 而 对 于 vy = 一 1 的 情况 ， 只 是 


更 新 表达 式 的 向 量 加 法 变 成 了 减法 而 已 ， 做 的 事情 是 一 样 的 。 - 
贡 


也 就 是 说 ， 虽 然 有 加 法 和 减法 的 区 别 ， 但 它们 的 做 法 都 是 在 分 类 
失败 时 更 新 权重 向 量 ， 使 得 直线 旋转 相应 的 角度 ? 


调 
Ul 
二 
是 的 。 像 这 样 重复 更 新 所 有 的 参数 ， 就 是 感知 机 的 学 习 方 法 。 
人 3 我 息 用 这 个 感知 机 米 试 坛 对 时 装 的 照片 进行 分 类 。 


照片 的 分 类 响 …… 遗 憾 地 告诉 你 ， 这 可 能 做 不 到 哦 。 
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| 3.4 | 线性 可 分 


基本 内 容 ， 


倒是 可 以 这 么 说 …… 不 过 学 习 了 感知 机 


因为 感知 机 只 是 简单 的 模型 吗 ? 


是 的 。 感 知 机 非常 简单 又 容易 理解 ， 但 相应 地 ， 缺 点 也 有 很 多 。 


真是 应 了 那 名 老话 ， 世 界 上 没有 免费 的 午餐 …… 


会 白 学 啊 。 理 解 它 的 


最 大 的 缺点 


刚才 我 们 尝试 的 是 用 直线 对 训练 数据 进行 分 类 ， 现 在 假设 有 下 面 
这 张 图 里 的 数据 (图 3-18 )， 其 中 圆 点 为 1， 又 号 为 -1， 如 果 只 用 
一 条 直线 对 这 些 数据 进行 分 类 ， 应 该 画 一 条 什么 样 的 线 呢 ? 


知道 这 种 方法 的 优 缺 点 也 是 很 重要 的 。 


感知 机 的 缺点 是 什么 ? 


哆 是 它 只 能 解决 线性 可 分 的 问题 。 


什么 是 线性 可 分 ? 


图 3-18 山 


| 托 。 不 要 开玩笑 嘛 ， 这 个 怎么 看 都 不 能 只 用 一 条 直线 分 类 呀 。 


是 啊 ， 这 是 做 不 到 的 。 线 性 可 分 指 的 就 是 能 够 使 用 直线 分 类 的 情 
况 ， 像 这 样 不 能 用 直线 分 类 的 就 不 是 线性 可 分 。 


te 这 么 说 来 ， 像 照片 这 类 的 图 像 分 类 就 不 是 线性 可 分 了 。 


这 类 图 像 数据 的 维度 一 般 会 很 高 ， 所 以 无 法 可 视 化 。 但 是 想 一 想 

也 知道 ， 根 据 图 像 特征 进行 分 类 的 任务 肯定 不 是 那么 简单 的 。 我 他 

想 大 部 分 情况 下 是 线性 不 可 分 的 。 

我 想起 来 了 ， 你 说 过 感知 机 是 非常 简单 的 模型 ， 基 本 不 会 被 应 用 

在 实际 的 问题 中 。 
姓 

是 的 。 之 前 提 到 的 感知 机 也 被 称 为 简单 感知 机 或 单 层 感知 机 ， 真 

的 是 很 弱 的 模型 。 不 过 ， 既 然 有 单 层 感知 机 ， 那 么 就 会 有 多 层 感 一 

知 机 。 实 际 上 多 层 感知 机 就 是 神经 网 络 了 。 三 


fe 噢 噢 ， 这 就 是 神经 网 络 啊 ， 一 定 很 万 害 吧 ? 


是 的 ， 它 是 表现 力 非常 高 的 模型 。 不 过 继续 说 下 去 就 又 跑题 了 ， 
以 后 有 机 会 我 们 再 聊 这 个 。 
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既然 感知 机 不 能 用 ， 那 还 有 别 的 解决 办 法 吗 ? 


Tt 


有 一 个 不 同 于 感知 机 的 算法 能 够 很 好 地 应 用 于 线性 不 可 分 问题 。 


这 个 算法 更 实用 。 


好 ， 我 们 休息 片刻 ， 然 后 你 再 教 我 这 个 吧 ! 


逻辑 回归 


基础 技术 果然 还 是 很 难 应 用 在 实践 中 呀 。 


是 呀 。 不 过 理解 原理 也 是 很 重要 的 。 


有 了 基础 才能 谈 应 用 呵 。 那 个 能 应 用 于 线性 不 可 分 问题 的 算法 是 
什么 样 的 呀 ? 


我 们 还 是 用 刚才 按 横向 和 纵向 对 图 像 进行 分 类 的 例子 吧 。 


咽 ? 那 不 是 线性 可 分 的 问题 吗 ” 我 们 不 继续 线性 不 可 分 的 问题 了 ? 


接 下 来 要 讲 的 算法 与 感知 机 的 方法 不 一 样 ， 所 以 先 考 虑 线性 可 分 
的 问题 比较 好 ， 这 样 有 助 于 我 们 掌握 基础 知识 。 


3 果然 对 基础 知识 的 理解 是 很 重要 的 。 


是 的 ,万 事 都 是 从 基础 开始 的 。 回 到 刚才 的 话题 ， 接 下 来 要 讲 的 
算法 与 感知 机 的 不 同 之 处 在 于 ， 它 是 把 分 类 作为 概率 来 考虑 的 。 


Ve 娩 ， 概 率 ? 图 像 为 纵向 的 概率 是 80%、 为 横向 的 概率 是 20%， 这 样 


“~ 


是 呀 ， 你 真 聪明 ! 另外 ， 这 里 设 横向 的 值 为 1、 纵 向 的 值 为 0。 


这 个 也 和 感知 机 的 时 候 不 一 样 了 。 纵 向 不 是 -1 了? 


只 要 是 两 个 不 同 的 值 ， 用 什么 都 可 以 。 在 学 习 感 知 机 时 之 所 以 设 
置 值 为 1 和 一 1， 是 因为 这 样 会 使 参数 更 新 表达 式 看 起 来 更 简洁 ， 
而 现在 则 是 设置 为 1 和 0 会 更 简洁 。 


gl 训 。 原 来 为 了 处 理 简便 ， 这 些 地 方 可 以 自由 决定 呀 。 


| 3.5.1 | sigmoid 函数 


那 我 继续 往 下 讲 ， 你 还 记得 在 学 习 回 归 时 定义 过 这 样 一 个 带 参 数 
的 函数 吗 ? 
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fo(x)= 0'% (3.5.1) 


咽 ， 记得。 这 是 通过 最 速 下 降 法 或 随机 梯度 下 降 法 来 学 习 参 数 9 
的 表达 式 。 使 用 这 个 9 能 够 求 出 对 未 知 数据 x 的 输出 值 。 


这 里 的 思路 是 一 样 的 。 我 们 需要 能 够 将 未 知 数据 分 类 为 某 个 类 别 
的 函数 je(z)。 


这 是 和 感知 机 的 判别 函数 f(x) 类 似 的 东西 ? 


是 的 ， 作 用 是 相同 的 。 使 用 与 回归 时 同样 的 参数 G6， 函数 的 形式 就 


是 这 样 的 。 


1 
”1+exp(—0Tz) (3.5.2) 


fo(z) 


又 来 了 又 来 了 ， 一 下 子 就 变 难 了 ! 


你 才 又 来 了 …… 冷 静 下 来 ,一 部 分 一 部 分 看 就 没 问题 啦 。 


exp( 一 07z) 是 什么 来 着 ? 


exp 的 全 称 是 exponential， 即 指数 函数 。exp(z) 与 e 含义 相同 ， 
只 是 写法 不 同 。e 是 自然 常数 ， 具 体 的 值 为 2.7182.. .。 


哦 ， 也 就 是 说 exp(~gTz) 可 以 换 成 e- 和 = 这 样 的 写法 ? 


是 啊 。 指 数 部 分 如 果 过 于 复杂 ， 上 标的 字号 太 小 会 很 难看 清 ， 所 
以 这 时 候 使 用 exp 写法 的 情况 比较 多 。 


来 是 这 样 ， 确 实 exp 的 形式 更 方便 看 。 


回 


为 纵 轴 ,那么 它 的 


到 正题 。 这 个 函数 的 名 字 叫 sigmoid 函数 ， 设 97z 为 横 轴 ，fo (Zz) 


图 形 是 这 样 的 (图 3-19 )。 


图 3-19 


哇 ， 好 漂亮 的 形状 。 很 光滑 的 曲线 啊 。 


0Iz=0 时 jo(z)=0.5， 以 及 0 < fo(x) < 1 是 sigmoid 函数 的 两 


1 


这 


特 征 o 


个 函数 的 


图 形 我 知道 了 ,但 用 


这 样 的 函数 真能 分 类 吗 ? 
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了 了， 但 是 不 理解 为 什么 


首先 ， 刚才 说 到 我 们 要 用 概率 来 考虑 分 类 。 因 为 sigmoid 函数 的 
取 值 范围 是 0 < 名 (z) < 1， 所 以 它 可 以 作为 概率 来 使 用 。 


使 用 它 就 可 以 对 数据 进行 分 类 。 


这 个 让 我 们 一 起 来 看 一 下 。 


pa 


啊 ， 这 是 什么 来 着 …- 


没 错 ， 正 是 条 件 概率 。 
的 概率 。 假 如 je(z) 的 


3 啊 ， 确 实 是 这 样 。sigmoid 函数 可 以 作为 概率 使 用 这 一 点 我 理解 


刚才 说 到 把 表达 式 3.5.2 的 je(z) 当 作 概率 来 使 用 ， 那 么 接 下 来 我 们 
就 把 未 知 数据 x 是 横向 图 像 的 概率 作为 fe(z)。 其 表达 式 是 这 样 的 。 


1|z)= fol(z) (3.5.3) 


概率 符号 ? 卫 中 的 竖 线 是 条 件 概 率 吧 ? 


这 是 在 给 出 z 数据 时 y = 1， 即 图 像 为 横向 
计算 结果 是 0.7， 你 认为 这 是 什么 意思 呢 ? 


fe(z) = 0.7 的 意思 是 图 像 为 横向 的 概率 是 70% 吧 。 一 般 来 说 这 样 
就 可 以 把 z 分 类 为 横向 了 吧 ? 


那 如 果 jo(z) = 0.2 呢 ? 


横向 的 概率 为 20%、 纵 向 的 概率 为 80%， 这 种 状态 可 以 分 类 为 纵向 。 


是 的 。 你 应 该 是 以 0.5 为 闵 值 ， 然 后 把 je(z) 的 结果 与 它 相 比较 ， 
从 而 分 类 横向 或 纵向 的 吧 ? 


0 (fe(x) < 0.5) (3.5.4) 


啊 ， 是 的 …… 其 实 我 刚才 还 没有 意识 到 这 个 ,但 仔细 一 想 ， 我 确 
实 是 这 样 分 类 的 。 


我 希望 你 注意 一 下 这 个 阔 值 0.5， 刚 才 我 们 看 sigmoid 函数 的 时 候 
它 也 出 现 了 吧 ? 


出 现 了 。 在 97z = 二 0 时 ,fo(x) = 0.5 (图 3-20)。 


图 3-20 


是 的 。 从 图 中 可 以 看 出 在 fo(x) > 0.5 时 ，6Tz > 0。 这 个 理解 吗 ? 
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bp， 嗯 ， 根 据 图 来 看 确实 是 这 样 的 。 反 过 来 在 jo(z) < 0.5 时 ，6rz <0 
‘ 对 吧 (图 3-21 )? 


fe (zx) 


图 3-21 


T 
0 (6x<0) (3.5.5) 
这 个 我 明白 ,但 是 改写 的 意义 在 哪里 呢 ? 


下 面 我 们 像 学 习 感 知 机 时 那样 ， 设 横 轴 为 图 像 的 宽 ( xz1)、 纵 轴 为 
图 像 的 高 ( za )， 并 且 夯 出 图 来 考虑 吧 。 


像 图 3-4 那样 ， 把 训练 数据 都 展示 在 图 上 吗 ? 


是 的 。 然 后 像 学 习 回 归 时 那样 ， 先 随便 确定 9 再 具体 地 去 考虑 。 
比如 当 9 是 这 样 的 向 量 时 ， 我 们 来 画 一 下 97x > 0 的 图 像 。 
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00 一 100 1 


02 1 T2 (3.5.6) 
3 好 的 。 那 就 先 代入 数据 ， 把 表达 式 变 为 容易 理解 的 形式 。 
志 
0Iz=-100.1+2zl+zo>0 二 
Z2 之 一 271 十 100 3.5.7) 六 
DD 
攻 


很 好 。 这 个 不 等 式 表示 的 范围 也 就 是 图 像 被 分 类 为 横向 的 范围 了 。 


这 个 不 等 式 的 图 是 这 样 的 吗 ( 图 3-22 )? 


A 、， 6Iz>0 即 za > 一 2c1l 十 100 册 


分 类 为 横向 四 


图 3-22 


闫 期 


| 


3 是 的 。 那 分 类 为 纵向 的 范围 呢 ? 
人 
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人 就 是 另 一 侧 (图 3-23 )。 


6oTzm<0 即 za < 一 2zl 十 100 


学 
借 

人 

此 


分 类 为 纵向 和 
1 
图 3-23 
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也 就 是 说 ,我 们 将 67z = 0 这 条 直线 作为 边界 线 ， 就 可 以 把 这 条 
线 两 侧 的 数据 分 类 为 横向 和 纵向 了 。 


低 吉 原来 如 此 。 这 样 真 直观 易 懂 啊 。 


岂 


实际 应 用 时 这 个 决策 边界 似乎 不 能 正确 地 分 类 图 像 (图 3-24 )， 
因为 我 们 决定 参数 时 太 随 意 了 吗 ? 


9 这 样 用 于 数据 分 类 的 直线 称 为 决策 边界 。 


湛 
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高 不 
\ 
\ O 
有 
\ O 
\ 人 
了 i 
人 分 类 为 横向 
B 
\ @ 
\ @ Fp 
\ E33 岩 
> 宽 
分 类 为 纵向 \ 
于 
图 3-24 


是 的 ， 和 回归 的 时 候 一 样 ， 是 因为 我 们 随意 决定 了 参数 。 那 么 你 几 
应 该 知道 接 下 来 要 做 什么 了 吧 ? 


为 了 求 得 正确 的 参数 9 而 定义 目标 函数 ， 进 行 微分 ， 然后 求 参数 
的 更 新 表达 式 ? 


回答 正确 ! 这 种 算法 就 称 为 逻辑 回归 。 BR 
上 
项 


Un 
攻 
现在 ， 我 们 就 一 起 来 求 参数 的 更 新 表达 式 吧 。 
bu 


和 回归 时 的 做 法 是 一 样 的 吧 ? 我 现在 也 能 做 了 。 
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真 不 巧 ， 逻辑 回归 的 目标 函数 与 之 前 的 不 一 样 哦 。 


二 


次 ， 这 样 吗 ?原来 和 最 小 二 乘法 不 一 样 啊 …… 那 逻辑 回归 的 目标 


函数 是 什么 形式 的 ? 


一 开始 我 们 把 z 为 横向 的 概率 P(y = 1|zx) 定义 为 fe(x) 了 。 基 于 
这 一 点 ， 你 认为 训练 数据 的 标签 y 和 fe(zx) 是 什么 样 的 关系 会 比较 
理想 呢 ? 


我 记得 学 习 回 归 的 时 候 你 也 问 过 这 个 问题 。 既 然 je(z) 是 zx 为 横 
向 时 的 概率 …… 那 么 在 y= 1 时 fo(x) 二 1, y= 二 0 时 fe(z)==0 的 
关系 就 是 理想 的 吗 ? 

对 对 。 我 们 把 这 人 句 话 换 成 这 样 的 说 法 ， 没 问题 吧 ? 

。y 二 1 的 时 候 ， 我们 希望 概率 P(y = 1|z) 是 最 大 的 

。y 二 0 的 时 候 ， 我 们 希望 概率 P(y = 0|x) 是 最 大 的 


咽 ， 没 问题 。P(y = 1|x) 是 图 像 为 横向 的 概率 ，P(y = 0lz) 是 图 
像 为 纵向 的 概率 。 


是 的 。 这 适用 于 全 部 的 训练 数据 。 对 于 一 开始 列举 的 那 6 个 训练 
数据 ， 我 们 期 待 的 最 大 概率 是 这 样 的 ( 表 3-5 )。 


表 3-5 

图 像 大 小 形状 y 概率 

80 x 150 纵向 0 期 待 P(y = 0lz) 最 大 
60 x 110 纵向 0 期 待 P(y = 0lz) 最 大 
35 x 130 纵向 0 期 待 P(y = 0lz) 最 大 
160 x 50 横向 1 期 待 P(y = 1|z) 最 大 
160 x 20 横向 1 期 待 P(y = llz) 最 大 
125 x 30 横向 1 期 待 P(y = 1|zx) 最 大 


况 下 整体 的 概率 就 可 以 用 下 面 的 联合 概率 来 表示 。 


人 而 且 ， 假定 所 有 的 训练 数据 都 是 互 不 影响 、 独 立 发 生 的 ， 这 种 情 
L 


(9) = P(y VY =0| 2 Py =0|72)... Py =1|2)) (3.6.1) a 


[外 滞 把 全 部 的 概率 乘 起 来 吗 ? 


想 一 想 扔 2 次 角 子 的 情况 。 第 1 次 的 结果 是 1 点 ， 上 且 第 2 次 的 结 
果 是 2 点 的 概率 是 多 少 呢 ? 首先 1 点 出 现 的 概率 是 二 ， 接 下 来 2 点 中 
由 更 的 生计 是， 二 沽 这 全 发 生 的 概 樟 就 芝 全 用 来 法 jj 着、 其 雪 人 


项 
式 是 这 样 的 。 
1 1 1 
X= = (3.6.2) 
6 6 36 
多 啊 ， 我 懂 了 。 第 1 次 的 概率 是 P(y(? = 0lz)， 第 2 次 的 概率 是 
P(y 2 = 0|z(0C0)) 我 们 要 计算 的 是 连续 发 生 6 次 的 概率 ， 对 吧 ? 
上 
项 
没 错 ， 而 且 联 合 概率 的 表达 式 是 可 以 一 般 化 的 ， 写 法 如 下 。 
下 . 和 . , 溃 
Z9)= 工 Po =1| 20) Py® =0|20) TY a 
i=1 (3.6.3) 攻 
关于 IT ( 读 作 “ 派 ") 的 更 多 内 容 ， 请 参考 附录 A.l。 i 


ee 这 个 我 看 不 懂 ! 


93 


一 猜 你 就 是 这 个 反应 。 虽 然 看 起 来 有 点 乱 ， 但 就 像 之 前 说 的 那样 ， 
只 要 把 每 一 个 组 成 部 分 都 理解 了 就 不 会 那么 难 了 。 


好 吧 ， 我 需要 先 冷 静 下 来 …… 还 是 好 伐 ! 从 哪里 看 起 才 好 呢 ? 


我 们 分 别 考虑 v9 为 1 或 为 0 时 的 Py = llzO)xPym = 
0lzG)I-w% PP 右上 角 的 vy 和 1 一 y 中 表示 指数 。 


好 ， 分 别 考虑 …… 首 先 向 指数 y9 代入 1。 
Pl sl|w eo Pym) 
= P(y® =1|z0) Py =0|20) 


Py V1 ") (3.6.4) 


啊 ， 这 样 就 只 剩 y= 1 的 概率 了 。 莫 非 y= 0 的 时 候 也 一 样 ? 


人 
= Po =1|z°) Py =0|zO) 
-P=0 ew (3.6.5) 


是 的 。 这 个 表达 式 利用 了 任何 数字 的 0 次 方 都 是 1 的 特性 。 这 里 
明白 了 吗 ? 


原来 是 这 样 。 想 出 这 个 表达 式 的 人 挺 厉害 的 ……: 


比 起 区 分 各 种 情况 的 写法 ， 还 是 汇总 到 一 个 表达 式 的 写法 更 简单 。 


咽 。 现 在 我 们 总 算 知道 它 的 目标 函数 了 。 


是 呀 。 接 下 来 考虑 一 下 使 这 个 目标 函数 最 大 化 的 参数 9 吧 。 


原来 是 这 么 回 事 。 回 归 的 时 候 处 理 的 是 误差 ， 所 以 要 最 小 化 ， 而 
现在 考虑 的 是 联合 概率 ， 我 们 希望 概率 尽 可 能 大 ， 所 以 要 最 大 化 ， 
对 吗 ? 


| 由 


对 的 。 这 里 的 目标 函数 L(9) 也 被 称 为 似 然 ， 函 数 的 名 字 工 取 自 似 
然 的 英文 单词 Likelihood 的 首 字母 。 


似 然 …… 原 来 还 有 这 样 的 词 。 


它 的 意思 是 最 近似 的 。 我 们 可 以 认为 似 然 函 数 L(9) 中 ,使 其 值 最 
大 的 参数 9 能 够 最 近似 地 说 明 训练 数据 。 


似 然 是 不 容易 理解 的 概念 ， 这 里 不 懂 它 也 没关系 。 只 要 记 住 这 个 
词 就 行 了 。 


好 ， 这 样 我 就 稍稍 放心 了 。 
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| 3.7 | 对 数 似 然 函 数 


那么 我 们 就 对 似 然 函数 进行 微分 ， 求 出 参数 9 就 行 了 吗 ? 


O 


为 什么 有 点 困难 ? 


log L(0) = 


(3 
各 | 是 的 。 不 过 直接 对 似 然 函数 进行 微分 有 点 困难 ， 在 此 之 前 要 把 函 
(3 


首先 它 是 联合 概率 。 概 率 都 是 1 以 下 的 数 ， 所 以 像 联合 概率 这 种 
概率 乘法 的 值 会 越 来 越 小 。 


的 确 如 此 。 如 果 值 太 小 ， 编 程 时 会 出 现 精度 问题 。 


是 呀 ， 这 是 第 一 个 处 理 起 来 有 点 难 的 地 方 。 另 外 还 有 一 个 ， 那 就 
是 乘法 。 与 加 法 相 比 ， 乘 法 的 计算 量 要 大 得 多 。 


嗯 ,确实 加 法 计算 更 简单 。 但 是 ， 有 解决 这 个 问题 的 办 法 吗 ? 


只 要 取 似 然 函 数 的 对 数 就 好 了 。 像 这 样 在 等 式 两 边 加 上 log 即 可 。 


vog [I Po =1120) Py® =0120) 7 
i=1 (3.7.1) 


关于 对 数 的 更 多 内 容 ， 请 参考 附录 A.7。 


(9 入 一 看 好 像 反而 更 难 了 …… 回 归 的 时 候 是 随便 乘 了 个 常数 ， 这 次 


随便 取 对 数 也 没 问题 吗 ? ， 
贡 
没 问 题 的 ， 因 为 og 是 单调 递增 函数 。log 函数 的 图 形 还 记得 吗 ? 到 
让 
DD 
贡 


我 记得 是 这 样 的 ( 图 3-25 )， 没 错 吧 ? 


小 
二 
图 3-25 小 
Ul 
二 
对 对 。 图 形 一 直 向 右上 方 延伸 。 单 调 递增 函数 是 在 zi: < zz 时 ， 四 
f(z1) < f(zx2) 的 函数 f(z)。 
[AY 原来 如 此 。 的 确 ，log(z) 的 图 形 一 直 向 右上 方 延伸 ,而 且 在 zi < za 和 


时 ，log(zi) < log(z2) 也 成 立 。 


咽 ， 所 以 我 们 现在 考察 的 似 然 函数 也 是 在 L(91) < L(92) 时 ， 有 
logL(91) < logL(92) 成 立 。 也 就 是 说 , 使 L(9) 最 大 化 等 价 于 使 
logZ(6) 最 大 化 。 


97 


98 


0 训 。 效 ， 这 个 思路 真 巧妙 叮 。 


那 我 们 把 对 数 似 然 函 数 变 形 看 看 。 


log L(0) = logTI Po =1| £0)" p(y® =0| 2%) 
= 


i i) yi) i TD] 
DO (logPy Y=1 2 ) +logPoO =olzo) 7” ) 


8 
ll 
全 


ylogPoO =1| 82)) + (1 y)log Py® =0|2")) 


ll 


8 
ll 
A 


ylogPlyY) =1| 8)) + (1 -yg — Py =1|2"))) 


癌 
册 
已 


I 
M3: 
We WE 


yO log fel(z™)) + (0 — vy) log( — fe(m")))) 


全 这 个 变形 过 程 好 像 上 有 点 复杂 …… 


人 每 一 行 的 变形 分 别 利 用 了 下 面 这 些 特性 ， 你 好 好 理解 一 下 。 


ll 


(3.7.2) 


S 
ll 
忆 


。 第 2 行 是 log(ab) = loga 二 logb 

。 第 3 行 是 logao" = bloga 

。 第 4 行 是 P(y® 0|z) 1 P(y? a 1|zG) 
。 第 5 行 是 表达 式 3.5.3 


人 (3 前 两 个 是 对 数 函 数 的 特性 吧 ? 第 4 行为 什么 是 那样 的 呢 ? 


现在 我 们 考虑 的 只 有 y= 1 和 = 0 两 种 情况 ， 所 以 应 有 P(y(? = 
0lzG) + P(y® = 12?)= 1 


小 
姓 
目 
UU 
冰 


Ve 啊 ， 原 来 如 此 。 所 有 情况 的 概率 之 和 都 是 1 呀 。 


| 3.7.1 | 似 然 函 数 的 微分 


前 面 讲 了 很 多 ， 总 结 一 下 就 是 逻辑 回归 将 这 个 对 数 似 然 函数 用 作 


n 


log L(0) = > (vy log fo(w®) + (1 —y®)1og(1 — fo(w)))) (3.7.3) 


‘a 接 下 来 ， 对 各 个 参数 9; 求 微分 就 行 了 吧 ? 


没 错 ， 我 们 来 算 算 看 。 


dlog L(0 8 /ee i i 
i D> (vO wefole 0) + 0 =) ol 名) (3.7.) 


这 个 表达 式 的 意思 我 不 大 理解 …… 


和 回归 的 时 候 是 一 样 的 ， 我们 把 似 然 函 数 也 换 成 这 样 的 复合 函数 ， 
然后 依次 求 微 分 。 


u = log L(0) 
v= jeo(z) 


(3.7.5) 
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Ou Ou Ov 

80; Bu 60, SP 
2 了》 yoog) + (1 -0)1og(! —)) 
Oo dw (3.7.7) 


是 的 。 不 过 对 log(1 一 v) 微分 时 ， 要 像 这 样 通过 复合 函数 来 求 。 还 
要 注意 ， 这 样 做 最 后 的 表达 式 前 面 会 有 个 负 号 。 


Ss=1]1—wvw 
t = log(s) 
dd ds 
dv ds dyv 
业 
5 
加 1 
1 (3.7.8) 


CC 好 的 。 所 以 ， 微 分 结果 是 这 样 的 吧 ? 


av y 和 二 YY) 
| G0 
咽 ， 对 的 。 
接 下 来 是 v 对 0; 的 微分 ， 这 个 要 怎么 微分 呀 ? 


0v 0 1 
00; 00;1+exp(—0Tz) 


(3.7.10) 


这 个 看 上 去 有 点 麻烦 ， 不 过 其 实 我 们 已 经 知道 了 sigmoid 函数 的 
微分 是 这 样 的 ， 所 以 用 这 个 应 该 就 可 以 计算 了 。 


= 0o(7z)(1 一 al(Z)) (B11) 


好 的 。 现 在 fo(z) 本 身 就 是 sigmoid 函数 ， 所 以 这 个 微分 表达 式 可 
以 直接 使 用 。 


是 呀 。 设 z= 0”"z， 然 后 再 一 次 使 用 复合 函数 的 微分 会 比较 好 。 
你 来 解 解 看 。 


z= 0 
1 
Ws 1 十 exp( 一 >) 
0v ov 0z 
00; 0z 90; (3.7.12) 


101 


知 


3 懂 了 …… 我 来 一 步 步 地 算 算 看 。v 对 z 微 分 的 部 分 也 就 是 sigmoid 


函数 的 微分 。 
0 
元 =v(1—v) (3.7.13) 
全 z 对 0; 的 微分 就 简单 了 。 
Oz 0 
ee oT 
00) 00; 
= 二 人 Wi1 十 …: 十 zn) 
= 80; 0 一 0 1w1 nen 
yg (3.7.14) 
何 接 下 来 把 结果 相 乘 就 好 了 ， 是 这 样 吧 ? 
0v 0v 0z 
00; Oz 00; 


= v(1 —v). 7 (3.7.15) 


很 好 。 那 我 们 就 代入 各 个 结果 ， 然 后 通过 展开 、 约 分 ,使 表达 式 


变 得 更 简洁 。 


好 的 。 


Ou Ou 0v 


90; dv 80) 
mA 1 
y 2/ 人 
全 至 .UL 一 
| v(1—v):7 
% 三 LL 
= (yy )a 


i=1 (3.7.16) 


没 错 ， 做 得 很 好 ! 


计算 过 程 好 复杂 ， 不 过 最 后 的 结果 还 挺 简单 的 。 


接 下 来 要 做 的 就 是 从 这 个 表达 式 导 出 参数 更 新 表达 式 。 不 过 现在 
是 以 最 大 化 为 目标 ， 所 以 必须 按照 与 最 小 化 时 相反 的 方向 移动 参 


原来 如 此 …… 也 就 是 说 ， 最 小 化 时 要 按照 与 微分 结果 的 符号 相反 的 
方向 移动 ， 而 最 大 化 时 要 与 微分 结果 的 符号 同 向 移动 。 这 样 行 吗 ? 


0; := 0; 十 J (0 一 jot) a (3.7.17) 
i=1 
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是 的 。 为 了 与 回归 时 的 符号 保持 一 致 ， 也 可 以 将 表达 式 调整 为 下 
面 这 样 。 注 意 , 7 之 前 的 符号 和 2 中 的 符号 反 转 了 。 


2 (fel) 本 Eh (3.7.18) 
2 三 


全 好 的 。 这 次 的 计算 量 太 多 ， 好 累 呀 ! 


| 3.8 | 线性 不 可 分 


最 后 ， 我 们 将 逻辑 回归 应 用 于 线性 不 可 分 问题 吧 。 


托 信 。 经 于 讲 到 这 里 啦 。 


这 样 的 就 是 线性 不 可 分 ( 图 3-26 )， 没 问题 吧 ? 


图 3-26 


3 嗯 ,也 就 是 用 直线 不 能 分 类 的 问题 ， 我 记 着 呢 。 


是 的 。 对 于 这 个 例子 来 说 ,虽然 用 直线 不 能 分 类 , 但 是 用 曲线 是 = 
不 是 就 可 以 分 类 了 ( 图 3-27 )? 


项 
本 
X X X x 
作 AR 如 
x @ 
X 7 全 > DN 
, © ® x* 项 
1 % 
二 
和 \ 
T 4 > 
\ 


图 3-27 


[AY 看 上 去 是 可 以 的 。 英 非 我 们 要 像 学 习 多 项 式 回归 时 那样 ， 去 增加 


次 数 ? 
~ 
[全 玉 悟性 很 高 嘛 ! 那么 ,我们 就 向 训练 数据 中 加 入 闻 ， 考 虑 这 样 。 
从 2 泊 。 的 数据 。 _ 
b0 1 
Oi 而 岂 
0 = pa 

0» 和 XT2 = 

03 21 (3.8.1) 


Coy 
区 
入 
6 
[eat 
菲 
IN 
人 
党 
Es 
豆 
~ 
| 次 其 


Orz 一 00 HH OZ1 十 027zo + Gaz? (3.8.2) 
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嗯 。 假 设 9 是 这 样 的 向 量 ,， 那么 grz > 0 的 图 形 是 什么 样 的 呢 ? 


03 —1 (3.8.3) 
因为 9Tx > 0， 先 代入 看 看 吧 …… 然 后 像 之 前 一 样 ， 变 形 试 试 。 
0Tx = 00 十 OZ1 十 0272 十 0373 
=0 二 0.z1 十 1.7z2 十 一 1. 21 


一 Zao 一 2>0 (3.8.4) 


移 项 后 最 终 得 到 的 表达 式 是 za > z?。 将 这 个 画 成 图 看 看 。 


画图 …… 是 这 样 的 吗 (图 3-28 )? 


判定 为 y= 2 


图 3-28 


对 的 。 之 前 的 决策 边界 是 直线 ， 现 在 则 是 曲线 了 。 人 参数 9 是 随便 
定 的 ， 所 以 数据 完全 没有 被 正确 地 分 类 。 


不 过 ， 我 知道 将 逻辑 回归 应 用 于 线性 不 可 分 问题 的 方法 了 。 原 来 
并 没有 那么 难 呀 。 


之 后 通过 随意 地 增加 次 数 ， 就 可 以 得 到 复杂 形状 的 决策 边界 了 。 
比如 在 zi 之 外 再 增加 一 个 吗 ， 就 会 有 圆 形 的 决策 边界 。 


在 逻辑 回归 的 参数 更 新 中 也 可 以 使 用 随机 梯度 下 降 法 吗 ? 


当然 可 以 。 


太 好 了 。 人 逻辑 回归 虽然 有 点 难 ， 但 是 我 们 最 后 也 求 出 它 的 参数 更 
新 表达 式 了 。 啊 ， 好 累 啊 ! 


还 有 一 个 名 为 SVM， 也 就 是 支持 向 量 机 的 分 类 算法 也 很 有 名 。 此 
外 ,还 有 多 分 类 的 做 法 ， 去 学 一 学 也 是 很 有 意思 的 。 


好 的 。 不 过 今天 就 先 到 这 里 吧 ， 我 们 下 次 再 聊 ! 
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评估 已 建立 的 模型 


现在 ， 绫 乃 似乎 已 经 相当 了 解 机 器 学 习 的 理论 了 。 
不 过 在 实际 应 用 这 些 理论 之 前 ， 还 有 一 些 必 须要 了 解 的 知识 。 
在 本 章 中 ， 绫 乃 将 与 美 绪 一 起 学 习 如 何 “ 评 估 ” 已 建立 的 模型 。 
同时 也 会 复习 之 前 学 到 的 知识 ， 所 以 请 稍稍 放松 身心 来 阅读 吧 。 


| 4.1 | 模型 评估 


之 前 和 你 学 到 了 好 多 理论 知识 ， 而 且 我 也 都 理解 了 ， 好 开心 呀 。 


任何 事情 理解 之 后 都 会 很 开心 哦 


o 


我 好 想 马 上 把 学 到 的 东西 应 用 在 实际 问题 上 。 


能 理解 。 你 已 经 听 了 很 多 关于 理论 的 说 明 ， 肯 定 会 对 实现 感到 路 
跃 欲 试 。 不 过 在 此 之 前 ,我 还 想 和 你 聊 一 聊 实 际 应 用 机 旭 学 习 时 
会 出 现 的 问题 ， 以 及 相应 的 处 理 方法 。 


好 吧 。 昌 然 很 想 快 点 去 写 代码 ,但 是 了 解 你 说 的 这 些 知 识 也 是 很 
重要 的 ， 对 吧 ? 


是 的 。 接 下 来 我 要 讲 的 内 容 与 之 前 的 不 太一 样 ， 是 关于 模型 评估 的 。 


模型 评估 ? 那 是 什么 意思 ? 


在 进行 回归 和 分 类 时 ,为 了 进行 预测 ， 我 们 定义 了 函数 je(z)， 然 
后 根据 训练 数据 求 出 了 函数 的 参数 9。 


你 是 说 对 目标 函数 进行 微分 ， 然 后 求 出 参数 更 新 表达 式 的 操作 吧 ? 
我 还 记得 呢 。 


评估 


那个 时 候 ， 我 们 求 出 参数 更 新 表达 式 之 后 就 结束 了 。 但 是 ， 其 实 
我 们 真正 想 要 的 是 通过 预测 函数 得 到 预测 值 。 以 回归 的 那个 例子 
来 说 ， 就 是 关于 投入 的 广告 费 能 带 来 多 少 点 击 量 的 预测 值 。 


是 的 。 


所 以 我 们 希望 fe(z) 对 未 知 数据 z 输出 的 预测 值 尽 可 能 正确 。 


那 是 当然 。 


那 我 们 如 何 测 量 预测 函数 fe (x) 的 正确 性 ， 也 就 是 精度 呢 ? 


观察 函数 的 图 形 ( 图 4-1 )， 看 它 能 否 


否 很 好 地 拟 合 训练 数据 ? 


占 个 
十 800 十 全 
量 9 
@ 
2 > 
600 十 
J 能 够 正确 地 预测 
M0 sg 
__ 0 . 
i be 
200 十 ， 
不 能 正确 地 预测 
> 
100 200 300 ”广告 费 
图 4-1 
之 前 我 说 过 ， 这 是 只 有 一 个 变量 的 简单 问题 ， 所 以 才能 在 图 上 展 


示 出 来 。 
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对 哦 ， 你 说 过 像 多 重 回 归 这 样 的 问题 ， 变 量 增加 后 就 不 能 在 图 上 
展示 了 ， 而 且 特 意 去 画图 也 很 麻烦 。 


是 的 ， 所 以 我 们 需要 能 够 定量 地 表示 机 器 学 习 模 型 的 精度 。 


我 慌 了 ， 这 就 是 模型 的 评估 吧 ? 


没 错 。 接 下 来 我 们 就 要 考虑 评估 模型 的 方法 。 


不 过 我 仔细 想 了 想 ， 既 然 这 是 从 训练 数据 中 得 到 的 参数 ， 那 么 训 
练 结束 之 后 得 到 的 不 就 是 正确 的 参数 吗 ? 


是 的 , 但 这 样 的 参数 只 有 对 训练 数据 才 是 正确 的 。 


次 ? 什么 意思 呀 ? 


为 了 让 你 理解 这 一 点 ,我 们 一 起 来 考虑 一 下 评估 模型 是 否 正 确 的 
方法 吧 。 


| 4.2 | 交叉 验证 


| 4.2.1 | 回归 问题 的 验证 


人 所 以 说 要 怎么 评 佑 模型 呢 ? 
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把 获取 的 全 部 训练 数据 分 成 两 份 : 一 份 用 于 测试 ， 一 份 用 于 训练 。 
然后 用 前 者 来 评估 模型 。 


也 就 是 说 假如 有 10 个 训练 数据 ,那么 实际 上 会 按照 5 个 测试 数 
据 、5 个 训练 数据 来 分 配 它们 ， 是 吗 ? 


咽 。 一 般 来 说 ， 比 起 5:5， 大 多 数 情 况 会 采用 3 :7 或 者 2:8 这 种 
训练 数据 更 多 的 比例 。 不 过 倒 也 没有 特别 规定 必须 要 这 样 。 


那 我 们 就 3 个 用 于 测试 、7 个 用 于 训练 吧 ， 怎 么 样 ? 


嗯 ,可 以 的 。 也 就 是 说 ， 关 于 点 击 量 预测 的 回归 间 题 ， 我 们 现在 
有 10 个 数据 ， 其 中 测试 数据 和 训练 数据 是 这 样 分 配 的 (图 4-2 )。 


点 个 测试 数据 
是 800 十 Ss 
训练 数据 。。 
600 十 。 Bs 
四 
400 十 六 
四 ee 
B00 
+ + t > 
100 200 300 ”广告 费 
图 4-2 


右 侧 的 3 个 是 测试 数据 、 左 侧 的 7 个 是 训练 数据 ， 对 吧 ? 


其 实 不 这 样 极端 地 分 配 效 果 会 更 好 ， 不 过 姑且 先 这 样 吧 。 首 先 ， 
我 们 来 考虑 使 用 左 侧 这 7 个 数据 来 训练 参数 的 情况 。 
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用 一 次 函数 fe(z) = bo + bz 就行 了 吧 ? 


是 的 ， 先 从 一 次 函数 开始 考虑 比较 好 。 先 不 去 管 测 试 数据 ， 只 看 那 
7 个 训练 数据 。 你 觉得 拟 合 得 最 好 的 一 次 函数 应 该 是 什么 样 的 ? 


咽 …… 这 样 的 吧 (图 4-3 )? 


占 本 
量 800 十 Gs 
[2 2 汪汪 
600 十 ad 
a . 
400 十 -Ar ® 
Pd 
200 十 
> 
100 200 300 ”广告 费 
图 4-3 


虽 ， 看 上 去 不 错 。 根 据 7 个 数据 训练 参数 的 话 ， 这 个 一 次 函数 应 
该 就 够 了 。 


那 刚才 没有 管 的 测试 数据 该 怎么 办 呢 ? 


这 个 先 放 着 ， 等 一 下 再 看 。 接 下 来 还 是 不 管 测试 数据 ， 考 虑 一 下 
二 次 函数 。 这 次 应 该 是 什么 样 的 呢 ? 


这 样 的 二 次 函数 (图 4-4)? 


¥ 参见 2.3 节 的 表达 式 2.3.1。 


A 2 
第 4 章 : 
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占 人 
由 于 
uy 他 呈 / 
量 800 | 时 
/ @。 
/ 
600 十 8 
了 
400 十 2 
_-®.6 
200 十 
| | | > 
100 200 300 广告 费 
图 4-4 


不 错 嘛 。 如 果 je(z) 是 二 次 函数 ， 那 它 基本 上 就 是 这 个 形状 。 现 在 ， 
你 应 该 能 明白 “只 有 对 训练 数据 才 是 正确 的 ”是 什么 意思 了 吧 ? 


我 懂 啦 ! 如 果 只 看 训练 数据 ,那么 二 次 函数 比 一 次 函数 拟 合 得 更 
好 。 但 是 ， 如 果 将 测试 数据 也 考虑 进来 ,那么 二 次 函数 就 完全 不 
行 了 。 


是 的 。 模 型 评估 就 是 像 这 样 检查 训练 好 的 模型 对 测试 数据 的 拟 合 
情况 。 


原来 是 这 么 回 事 。 也 就 是 说 ， 要 把 测试 数据 当 作 未 知 数据 来 考虑 啊 。 


没 错 。 刚 刚 我 讲解 时 利用 了 一 次 本 和 二 次 函数 模型 的 区 别 ， 但 
即使 模型 相同 ， 如 果 训 练 数据 过 少 ， 这 种 现象 也 会 发 生 。 


那 在 训练 结束 之 后 ， 我 们 还 得 像 这 样 检查 一 下 测试 数据 是 否 也 拟 
合 吧 ? 


0 只 是 应 用 到 现实 生活 中 的 问题 时 ， 大 多 数 情况 
能 像 现 在 这 样 画图 来 看 ， 所 以 我 们 需要 定量 地 衡量 精度 。 
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对 呀 ! 如 果 变 量 增加 ， 就 不 能 画 岁 了 。 就 算 能 画图 ， 也 会 很 麻烦 。 


对 于 回归 的 情况 ， 只 要 在 训练 好 的 模型 上 计算 测试 数据 的 误差 的 
平方 再 取 其 平均 值 就 可 以 了 。 假 设 测试 数据 有 nn 个 ,那么 可 以 
这 样 计算 。 


L300- Neo 
71 二] 


(4.2.1) 


对 于 预测 点 击 量 的 回归 问题 来 说 ，y 中 就 是 点 击 量 ， 而 2 中 是 广告 
费 或 广告 版 面 的 大 小 吧 ? 


(3 
个 是 的 。 这 个 值 被 称 为 均 方 误差 或 者 MSE, 全 称 Mean Square Error 


(图 45 )。 这 个 误差 越 小 ， 精 度 就 越 高 ， 模 型 也 就 越 好 。 


误差 
。 吴 差 四 
[a 
量 800 i 
人 
600 @ -一 
。-- 
400 人 
-Tese 
200 
| | > 
100 200 300 ”广告 费 
图 4-5 


函数 的 值 变 小 而 更 新 参数 时 所 做 的 事情 是 一 样 的 吧 ? 


一 


(9 这 么 说 起 来 ， 回 归 的 目标 函数 也 是 误差 函数 吧 ? 这 与 为 了 让 误差 
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题 哦 。 


个 是 的 。 另 外 ， 在 分 类 问题 中 也 会 出 现 模型 只 能 拟 合 训练 数据 的 问 
| 托 。 战 ， 对 呀 。 还 有 分 类 问题 。 
| 4.2.2 | 分 类 问题 的 验证 


与 回归 的 时 候 一 样 ， 我 们 先 考虑 数据 的 分 配 。 姑 且 先 这 样 分 配 吧 
(图 4-6 )。 


训练 数据 测试 数据 


ns 四 Xs 
了 本 ‘Xx \ 
X Xx : 
x X 、 
X X 
. © 
Dd @@ a 
. . ba : 
@ R S 
一 > 


还 是 先 不 管 测试 数据 吗 ? 


是 的 。“ 数 据 的 分 配方 法 不 要 太极 端 其 实 会 更 好 ”这 一 点 与 回归 的 
时 候 也 是 一 样 的 。 假 设 在 逻辑 回归 的 情况 下 ，67z 是 简单 的 一 次 
函数 ， 那 么 只 根据 训练 数据 进行 训练 后 ， 决 策 边 界 应 该 是 这 样 的 
(图 4-7)。 


Wz 


知 


NR x 
x x*Xx 
x ~、 x 时 
图 47 
分 类 效果 很 好 啊 。 


但 是 假如 907z 更 加 复杂 ， 可 能 就 会 像 这 样 紧 贴 着 训练 数据 进行 分 类 
(图 48)。 


x x 
x 
x Xx 
x x 
x x 
/ . . 
Pi \ 
人 ES . 
下 党 AN 
A ® @ 
* \ @ 
! 入 
/ \ 
7 T 和 
最 
形 人 
图 4-8 


可 以 对 训练 数据 完美 地 进行 分 类 ， 却 完全 忽视 了 测试 数据 。 


(3 
各 | 是 的 。 所 以 在 分 类 的 时 候 ， 我 们 还 必须 检查 模型 是 否 正确 。 
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那 在 这 里 我 们 也 使 用 均 方 误差 来 计算 误差 就 行 了 吗 ? 


对 于 分 类 有 别 的 指标 。 由 于 回归 是 连续 值 ， 所 以 可 以 从 误差 入 手 ， 二 
但 是 在 分 类 中 我 们 必须 要 考虑 分 类 的 类 别 是 否 正确 。 


哦 哦 ， 确 实 是 这 样 。 在 回归 中 要 考虑 的 是 答案 不 完全 一 致 时 的 误 
差 ， 而 分 类 中 要 考虑 的 是 答案 是 否 正确 。 一 


没 错 。 回 忆 一 下 逻辑 回归 的 内 容 ， 那 时 候 我 们 对 图 像 是 横向 的 还 人 


是 纵向 的 进行 了 分 类 。 攻 
嗯 ,我 们 是 根据 图 像 为 横向 的 概率 来 分 类 的 。 、 
Ww 
岂 


那么 ， 关 于 分 类 是 否 成 功 就 会 有 下 面 4 种 情况 。 这 个 理解 起 来 没 
问题 吧 ? 

。 图 像 是 横向 的 ， 被 正确 分 类 了 

。 岁 像 被 分 类 为 横向 ， 但 实际 上 不 是 横向 的 

。 图像 不 是 横向 的 ， 被 正确 分 类 了 

。 图 像 被 分 类 为 非 横向 ， 但 实际 上 是 横向 的 


、 ER EE 轩 人 让 
(9 咽 ， 这 个 我 理解 了 …… 不 过 我 感觉 还 是 不 太 清 晰 ， 把 它 整理 到 这 0 


样 的 表 里 好 了 ( 表 4-1 )。 则 
表 4-1 
正确 结果 标签 至 
分 横向 非 横向 逆 
横向 分 类 正确 分 类 错误 
非 横向 分 类 错误 分 类 正确 加 
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次， 厉害 ! 设 横 向 的 情况 为 正 、 非 横向 的 情况 为 负 ， 那 么 一 般 来 
说 ,二 分 类 的 结果 可 以 用 这 张 表 来 表示 ( 表 4-2 )。 


表 4-2 
四 正确 结果 标签 
分 类 一 
正 负 
正 True Positive (TP ) False Positive ( FP ) 
负 False Negative (EN ) True Negative (TN ) 


分 类 结果 为 正 的 情况 是 Positive、 为 负 的 情况 是 Negative。 分 类 
成 功 为 True、 分 类 失败 为 False。 对 吗 ? 


没 错 。 而 且 我 们 可 以 使 用 表 里 的 4 个 记号 来 计算 分 类 的 精度 。 精 
度 的 英文 是 Accuracy， 它 的 计算 表达 式 是 这 样 的 。 


TP++TN 
TP 二 +FP+FN+TN (4.2.2) 


Accuracy = 


它 表示 的 是 在 整个 数据 集中 ， 被 正确 分 类 的 数据 TP 和 TN 所 占 
的 比例 。 


假如 100 个 数据 中 80 个 被 正确 地 分 类 了 ， 那 么 精度 就 是 这 样 的 吧 ? 


80 
A (0. 
ccuracy 100 0.8 让 


是 的 。 用 测试 数据 来 计算 这 个 值 ， 值 越 高 精度 越 高 ， 也 就 意味 着 
模型 越 好 。 


评估 


3 明白 了 。 这 上 比 我 想象 的 要 简单 易 懂 ， 真 不 错 。 


| 4.2.3 | 精确 率 和 召回 率 


项 
一 般 来 说 ， 只 要 计算 出 这 个 Accuracy 值 ， 基 本 上 就 可 以 掌握 分 类 
结果 整体 的 精度 了 。 但 是 有 时 候 只 看 这 个 结果 会 有 问题 ， 所 以 还 一 
有 别 的 指标 。 
DN 
是 吗 ? 我 看 用 这 个 方法 计算 精度 挺 好 的 呀 ? a 
看 一 下 这 张 图 ( 图 4-9 ), 假设 图 中 的 圆 点 是 Positive 数据 、 又 号 是 
六 i Pe Sa hk W 
Negative 数据 ， 我 们 来 考虑 一 下 数据 量 极其 不 平衡 的 情况 。 各 
只 有 5 个 
个 Positive x x 
@ e Xx Xx 
i x X xxx x 
x x 
人 xx xx 大量 的 
xx X xx X ”xx x x Negative 
xx x Xx x Xx 滥 
x xxxXx XX Ul 
十 
图 4-9 
(k 特 几乎 全 是 Negative。 从 网 中 大 概 能 看 出 决策 边界 来 。 人 
尖 
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假设 有 100 个 数据 ， 其 中 95 个 是 Negative。 那 么 ， 哪 怕 出 现 模 型 
把 数据 全 部 分 类 为 Negative 的 极端 情况 ，Accuracy 值 也 为 0.95， 
也 就 是 说 模型 的 精度 是 95%。 


确实 是 这 样 。 既 然 Positive 相对 少 很 多 ,那么 即使 模型 把 数据 全 
部 分 类 为 Negative， 它 的 精度 也 会 很 高 。 


巴 所 有 数据 都 分 类 为 Negative 的 模型 ， 


掀 到 是 的 …… 届 到 这 种 情况 ， 只 看 整体 的 精度 看 不 出 来 问题 。 


没 错 ， 所 以 要 引入 别 的 指标 。 这 些 指标 稍微 有 点 复杂 ， 结 合 具体 
的 数据 来 看 更 好 理解 ， 所 以 我 用 这 个 例子 来 说 明 吧 (图 4-10、 表 
4-3 )。 


分 类 为 


Positive 


图 4-10 
表 4-3 

项 个 数 

Positive 数据 5 个 

Negative 数据 95 个 

True Positive 1 个 

False Positive 2 个 

False Negative 4 个 

True Negative 93 个 

Accuracy 94% 
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作 名 这 个 例子 看 上 去 对 Positive 数据 分 类 得 不 够 好 。 


是 的 。 首 先 我 们 来 看 第 一 个 指标 一 一 精确 率 。 它 的 英文 是 Precision。 


吉 
i TP 
TECLSLO0N 三 二 一 一 一 一 

TP+FP (4.2.4) 二 
NE 外 
这 是 什么 ? 含义 是 什么 呢 ? My 
吉 
这 个 指标 只 关注 TP 和 FP。 根 据 表达 式 来 看 ， 它 的 含义 是 在 被 分 一 

类 为 Positive 的 数据 中 ， 实 际 就 是 Positive 的 数据 所 占 的 比例 ( 图 
4-11 )。 WN 
攻 

只 关注 被 分 类 为 
Positive 的 部 分 
个 本 
后 ee 
BBE xx  X 
®  @ x x x 
x_x xx x Xx 
xxxx x ,x xx 
ee xx xxxx x * 
Xx x x x * x 

x xx*x x x 贡 
图 4-11 一 
郑 


‘a 我 实际 地 代入 数值 来 计算 看 看 。 
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1 1 
Prensons (0.333.,.: 
recision TI 一 3 pe 


1 


这 个 值 越 高 ， 


计算 得 出 的 精确 率 很 低 。 


我 明白 了 。0.333 确实 很 低 。 


Recall = 


还 有 一 个 指标 是 召回 率 ， 英文 是 Recall。 


下 民 


TP+FN 


把 精确 率 分 母 上 的 FP 换 成 FN 就 是 它 了 。 


章 | 评估 


12)s 
只 关注 Positive 数 据 
个 站 
J 
- 1- We 
® 
XX XX 
x X X x x 
X X x 
xxxXx x x xx 
X XX X 
XXX XXX 六 区 
X 
xx Xx xxx x x 
X X, Xx Xx 
x xxxx 
> 
= mm» 
来 算 算 它 的 值 。 


说 明 分 类 错误 越 少 。 拿 这 个 例子 来 说 ,虽然 被 分 类 
为 Positive 的 数据 有 3 个, 但 其 中 只 有 1 个 是 分 类 正确 的 。 所 以 


(4.2.6) 


虽 ， 这 个 指标 只 关注 TP 和 FN。 根据 表达 式 来 看 ， 它 的 含义 是 在 
Positive 数据 中 ， 实 际 被 分 类 为 Positive 的 数据 所 占 的 比例 (图 


图 4-12 


1+4 5 (4.2.7) 


这 个 值 越 高 ， 说 明 被 正确 分 类 的 数据 越 多 。 拿 这 个 例子 来 说 ， 虽 
然 Positive 数据 共有 5 个， 但 只 有 1 个 被 分 类 为 Positive。 所 以 计 三 
算得 出 的 召回 率 也 很 低 。 


训 确 实 很 低 ……. 


量 | 基于 这 两 个 指标 来 考虑 精度 是 比较 好 的 。 生 
二 


(妖精 克 率 和 召回 率 都 很 训 的 模型 就 是 一 个 好 模型 了 吧 ? 


是 的 。 不 过 一 般 来 说 ,精确 率 和 召回 率 会 一 个 高 一 个 低 ， 需 要 我 
们 取舍 ， 有 些 麻 烦 。 


| 4.2.4 | 下 值 

小 
Ul 
(fk 名 那 就 两 个 值 都 计算 ， 然 后 取 它 们 的 平均 值 怎么 样 ? 才 
只 是 简单 地 计算 平均 值 并 不 算 很 好 的 方法 。 假 设 现在 有 两 个 模型 ， 
它们 的 精确 率 和 召回 率 是 这 样 的 ( 表 4-4 )。 和 
表 4-4 - 

模型 精确 率 召回 率 平均 值 

模型 A 0.6 0.39 0.495 

模型 B 0.02 1.0 0.51 
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模型 B 好 极端 蚜 。 召 回 率 是 1.0， 也 就 是 说 所 有 的 Positive 数据 都 
被 分 类 为 Positive 了 ， 但 是 精确 率 也 实在 是 太 低 了 。 


如 果 将 所 有 的 数据 都 分 类 为 Positive， 那 么 召回 率 就 是 1.0。 但 是 
这 样 一 来 ，Negative 数据 也 会 被 分 类 为 Positive， 所 以 精确 率 会 
变 得 很 低 。 


哦 ， 仔 细 想 想 确 实 是 这 样 的 。 


看 一 下 两 个 模型 的 平均 值 ， 会 发 现 模 型 B 的 更 高 。 但 它 是 把 所 有 
数据 都 分 类 为 Positive 的 模型 ， 精 确 率 极 低 ， 仅 为 0.02， 并 不 能 
说 它 是 好 模型 。 


只 看 平均 值 确实 无 法 知道 模型 的 好 坏 。 


所 以 就 出 现 了 评定 综合 性 能 的 指标 值 。 表 达 式 4.2.8 中 的 Fmeasure 
就 是 下 值 ，Precision 是 前 面 说 的 精确 率 ，Recall 是 召回 率 。 


Fmeasure = T T 


Precision Recall (4.2.8) 


这 个 表达 式 好 复杂 啊 ， 分 母 里 有 分 数 。 


精确 率 和 召回 率 只 要 有 一 个 低 ， 就 会 拉 低 三 值 。 计 算 一 下 前 面 两 
个 模型 的 五 值 就 知道 了 ( 表 4-5)。 
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表 4-5 


模型 精确 率 召回 率 平均 值 五 值 
模型 A 0.6 0.39 0.495 0.472... 
模型 BB 0.02 1.0 0.51 0.039... 

托 澡 】 果真 如 此 。 和 简单 取 平 均值 时 得 到 的 结果 不 同 ,模型 A 的 下 值 更 高 。 。 导 
这 说 明 该 指标 考虑 到 了 精确 率 和 召回 率 的 平衡 。 其 实 ， 也 有 很 多 
人 把 前 面 那 个 下 值 的 表达 式 变 形 ， 写 成 下 面 这 样 ， 二 者 是 相同 的 。 ND 

山 
2. Precision.: Recall 
Fmeasure = 3 
Precision + Recall (4.2.9) 有 
ON 
山 


我 觉得 还 是 这 个 表达 式 更 好 理解 。 


有 时 称 下 值 为 本 值 会 更 准确 ， 这 一 点 需要 注意 。 


两 种 说 法 是 一 样 的 吧 ? 名 


有 的 时 候 含义 相同 ， 有 的 时 候 却 并 不 相同 。 除 婧 值 之 外 ， 还 有 一 一 
个 带 权 重 的 卫 值 指标 。 


次 期 


(1+ 6B?): Precision. Recall 
BP2. Precision + Recall (4.2.10) 


WeightedaF measure = 
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是 的 。 我 们 可 以 认为 王 值 指 的 是 带 权重 的 五 值 ， 当 权重 为 1 时 才 
是 刚才 介绍 的 杞 值 。 


看 来 带 权 重 的 下 值 更 通用 呀 。 


天 1 值 在 数学 上 是 精确 率 和 召回 率 的 调和 平均 值 。 关 于 调和 平均 
值 ， 不 需要 大 深入 地 了 解 。 


我 突然 想到 ， 之 前 介绍 的 精确 率 和 召回 率 都 是 以 TP 为 主 进行 计 
算 的 ， 那么 也 能 以 TN 为 主 吗 ? 


是 的 。 以 TN 为 主 来 计算 精确 率 和 召回 率 的 表达 式 是 这 样 的 。 


ee TN 
recision = TN EN 
TN 
Recall = 二 一 一 一 一 
2 TN++FP (4.2.11) 


以 哪个 为 主 都 可 以 吗 ? 


当 数 据 不 平衡 时 ， 使 用 数量 少 的 那个 会 更 好 。 最 开始 的 例子 中 
Positive 极 少 ， 所 以 我 们 使 用 了 Positive 来 计算 ， 反 之 如 果 Negative 
较 少 ， 那 就 使 用 Negative。 


我 明白 了 ,用 数量 少 的 那个 。 


对 于 回归 和 分 类 ,我 们 都 可 以 这 样 来 评估 模型 。 


评估 


我 现在 知道 模型 评估 的 重要 性 了 。 


(fA 
/ 克 二 和 部 训练 数据 分 为 测试 数据 和 训练 数据 的 做 法 称 为 交叉 验证 。 。 一 
和 从- 拷 。 这 是 非常 重要 的 方法 ， 一 定 要 记 住 哦 。 


从 好 的 。 这 里 面 也 没什么 复杂 的 数学 表达 式 ， 并 不 是 很 难 。 


了 交叉 验证 的 方法 中 ,尤为 有 名 的 是 天 折 交 叉 验 证 ， 掌 握 这 种 方法 上 
\e 很 好 人 处。 荐 
要 轴 
>“ 。 把 全 部 训练 数据 分 为 玉 份 
。 将 玉 一 1 份 数据 用 作 训练 数据 ， 剩 下 的 1 份 用 作 测试 数据 


。 每 次 更 换 训练 数据 和 测试 数据 ， 重 复 进行 KK 次 交叉 验证 . 
。 最 后 计算 天 个 精度 的 平均 值 ， 把 它 作为 最 终 的 精度 册 


假如 我 们 要 进行 4 折 交 又 验证 ， 那 么 就 会 这 样 测量 精度 ( 图 4-13 )。 


A B ca D 
天 AN 
/NAN 全 | 用 B、C、D 训练 ， 
\ ODO PT 从 用 A 测量 精度 小 
SS 人 w 
ny 一 一 人 i 
/NN pe A、C、 DD 训练， 才 
OOO- 
f Qe) , ee 第 3 次 用 全 、B、 DD 训练 ， 
Wy J ] C 测量 精度 
< 怪 
l A、B、C 训练 
外 SR 第 4 次 
gaa 号 4 供用 DD 测量 精度 六 
计算 第 1 次 至 第 4 次 精度 的 平均 值 = 模型 的 精度 
图 4-13 
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如 果 全 部 训练 数据 的 量 较 大 ， 这 种 方法 必须 训练 多 次 ， 会 比较 花 
时 间 吧 ? 


是 的 。 不 切实 际 地 增加 KK 值 会 非常 耗费 时 间 ， 所 以 我 们 必须 要 确 
定 一 个 合适 的 天 值 。 


| 4.3 | 正则 化 


| 4.3.1 | 过 拟 合 
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之 前 我 们 提 到 过 的 模型 只 能 拟 合 训练 数据 的 状态 被 称 为 过 拟 合 ， 
英文 是 overfitting。 


我 记得 在 学 习 回归 的 时 候 ， 你 说 过 过 度 增加 函数 je(z) 的 次 数 会 导 
致 过 拟 合 ， 原 来 是 这 个 意思 。 


记忆 力 真 好 。 过 拟 合 不 止 在 回归 时 出 现 ， 在 分 类 时 也 经 常 发 生 ， 
我 们 要 时 常 留意 它 。 


难道 我 们 不 能 采取 什么 方法 避免 过 拟 合 吗 ? 


有 几 种 方法 可 以 避免 过 拟 合 。 

。 增 加 全 部 训练 数据 的 数量 

。 使 用 简单 的 模型 

。 正 则 化 

首先 ， 重 要 的 是 增加 全 部 训练 数据 的 数量 。 之 前 我 也 讲 过 ， 机 器 
学 习 是 从 数据 中 学 习 的 ， 所 以 数据 最 重要 。 另 外 ， 使 用 更 简单 的 
模型 也 有 助 于 防止 过 拟 合 。 


评估 


| 4.3.2 | 正则 化 的 方法 


经 然后 是 …… 正则 化 ? 这 个 词 我 还 是 第 一 次 听 说 。 它 是 什么 意思 呢 ? 
识 
贡 
你 还 记得 我 在 讲解 回归 的 时 候 提 到 的 目标 函数 吗 ? 
湾 
| 
是 表达 式 2.3.2 吗 ? 册 
五 (9) = 的 二 (9 fo(w®) ) 中 
2< WU 


没 错 ， 就 是 这 个 。 我 们 要 向 这 个 目标 函数 增加 下 面 这 样 的 正则 化 项 。 


A 
R(O) = ,总 
j=1 (4.3.2) 
识 
Ul 
(9 是 这 样 吗 ? 中 
B(0) = 5 (1° - fo(z®)) + RO) 
i=1 
_ SS 7 霹 加 和 So 一 
= 5 (y — fo(zx )) + 了 >》 人 
i=1 j=1 (4.3.3) 
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没 错 。 我 们 要 对 这 个 新 的 目标 函数 进行 最 小 化 ， 这 种 方法 就 称 为 
正则 化 。 


还 挺 简单 的 。m 是 参数 的 个 数 吧 ? 


全 
9 是 的 。 不 过 一 般 来 说 不 对 如 应 用 正则 化 。 所 以 仔细 看 会 发 现 j 的 


取 值 是 从 1 开始 的 。 


[LAY 这 也 就 是 说 ,假如 预测 函数 的 表达 式 为 fo(z) = go + 012 + 0227， 
, 财 ” 那 么 m=2 就 意味 着 正则 化 的 对 象 参数 为 01 和 92? 


是 的 。9% 这 种 只 有 参数 的 项 称 为 偏 置 项 ,一般 不 对 它 进行 正则 化 。 


那 和 是 什么 ? 


入 是 决定 正则 化 项 影响 程度 的 正 的 常数 。 这 个 值 需要 我 们 自己 来 定 。 


经 哦 ， 这 样 就 能 防止 过 拟 合 啊 。 不 过 ， 我 还 不 是 很 懂 …… 


eT 
到 


i 


| 4.3.3 | 正则 化 的 效果 


光 看 表达 式 可 能 不 容易 理解 。 我 们 结合 图 来 想象 一 下 吧 。 
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结合 目标 函数 的 图 形 吗 ? 


是 的 。 首 先 把 目标 函数 分 成 两 个 部 分 。 


(7 时 jlzg)) 


4=1 
m 
2 
0 
J=1 


人 
全 
DI 
WS 


I> 


(4.3.4) 


C(9) 是 本 来 就 有 的 目标 函数 项 ，R(9) 是 正则 化 项 。 


咽 ，C(9) 和 R(9) 相 加 之 后 就 是 新 的 目标 函数 ， 所 以 我 们 实际 地 
把 这 两 个 函数 的 图 形 夯 出 来 ， 加 起 来 看 看 。 不 过 参数 太 多 就 画 不 
出 图 来 了 ， 所 以 这 里 我 们 只 关注 01。 而 且 为 了 更 加 易 懂 ， 先 不 考 


各 入 。 


好 的 。 那 我 先 从 C(9) 开始 画 起 …… 它 的 图 形 是 什么 样子 来 着 ? 


不 用 太 在 意 形状 是 否 精确 。 在 讲 回 归 的 时 候 ， 我 们 说 过 这 个 目 
标 函 数 开 口 向 上 ， 还 记得 吗 ” 所 以 ， 我 们 假设 它 的 形状 是 这 样 的 
(图 414)。 
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知 


C(0) 


SBO 


| | | | 上 一 一 | > Oy 
一 3 一 2 一 上 1 2 3 4 5 
对 ， 我 们 是 说 过 它 开 口 向 上 。 
从 图 中 马上 就 可 以 看 出 最 小 值 在 哪里 。 
最 小 值 在 91 = 4.5 附 近 (图 4-15 )。 
C(0) 
3 20 1 2 3 41s 
最 小 值 


近 是 最 小 值 。 接 下 来 是 R(9)， 
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简单 二 次 函数 。 这 个 你 也 能 夯 出 来 吧 ? 


图 4-14 


图 4-15 


是 的 。 从 这 个 目标 函数 在 没有 正则 化 项 时 的 形状 来 看 ，01 = 4.5 附 
它 就 相当 于 30?， 所 以 是 过 原点 的 


站 


一 


好 的 ， 这 个 多 羊 画 没 错 吧 ( 图 4-16 )? 


Im 

eS 
o 
几 
了 


R(O) 


图 4-16 


不 错 。 实 际 的 目标 函数 是 这 两 个 函数 之 和 (9) = C(9) 十 R(9)， 
尔 来 画 一 下 它 的 图 形 。 顺 便 考虑 一 下 最 小 值 在 哪里 。 


要 画 函 数 相 加 后 的 图 形 …… 是 不 是 把 91 各 点 上 的 C(9) 和 RR(9) 的 
高 相 加 ， 然 后 用 线 把 它们 相连 就 好 ? 是 这 样 吧 ( 图 4-17 )， 最 小 值 
01 一 0.9? 


法 可 


已 (9) = C(0) + R(O) R(0) 


个 


图 417 
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与 加 正则 化 项 之 前 相 比 ，01 更 接近 0 了 ， 看 出 来 了 吗 ? 


咽 ， 确 实 如 此 。 本 来 是 在 91 = 4.5 处 最 小 ， 现 在 是 在 9 = 0.9 处 
最 小 ， 的 确 更 接近 0 了。 


这 就 是 正则 化 的 效果 。 它 可 以 防止 参数 变 得 过 大 ， 有 助 于 参数 接 
近 较 小 的 值 。 虽 然 我 们 只 考虑 了 91， 但 其 他 9; 参数 的 情况 也 是 类 
似 的 。 


样 就 能 防止 过 拟 合 了 ? 


洲 


参数 的 值 变 小 ， 意 味 着 该 参数 的 影响 也 会 相应 地 变 小 。 比 如 ， 有 
这 样 的 一 个 预测 函数 fe (zx) 。 


fo(z) = 00 + O17 + ox (4.3.5) 


这 就 是 一 个 简单 的 二 次 方程 嘛 。 


再 极端 一 点 ,假设 9 = 0， 这 个 表达 式 就 从 二 次 变 为 一 次 了 。 


也 就 是 说 没有 z 项 了 。 


对 。 这 就 意味 着 本 来 是 曲线 的 预测 函数 变 为 直线 了 (图 4-18 )。 


评估 


Je(z) 


Je(z) 


日 


这 个 方式 也 


不 过 刚才 的 


很 厉害 嘛 。 


只 是 个 例子 ， 


整体 思路 你 已 经 理解 了 吧 ? 


没 错 ， 是 的 。 


图 4-18 


这 正 是 通过 减 小 不 需要 的 参数 的 影响 ,将 复杂 模型 符 换 为 简单 模 
型 来 防止 过 拟 合 的 方式 。 


就 是 要 进行 惩 


不 是 一 定 要 减 小 次 数 最 高 项 的 参数 值 。 


嗯 ,就 是 为 了 防止 参数 的 影响 过 大 ， 在 训练 时 要 对 参数 施加 一 
些 …… 一些 惩罚 ， 对 吧 ? 这 


个 是 惩罚 吧 ? 


罚 。 


那 一 开始 就 提 到 的 和 ， 是 可 以 控制 正则 化 惩罚 的 强度 吗 ? 


知 


是 的 。 比 如 令 入 = 0， 那 就 相当 于 不 使 用 正则 化 (图 4-19 )。 


fe (x) 


图 4-19 


反 过 来 入 武大 ,正则 化 的 惩罚 也 就 越 严 厉 (图 420 )。 


Je(z) 


图 4-20 
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| 4.3.4 | 分 类 的 正则 化 


3 刚才 讨论 的 是 回归 的 情况 ， 对 于 分 类 也 可 以 应 用 正则 化 吗 ? 
ff 


贡 

可 当然 。 你 还 记得 逻辑 回归 的 目标 函数 吗 ? 
仆 - 坦 二 
让 
村 D 
(9 是 对 数 似 然 函 数 吗 ? 册 
logL(0) = > (glogjoleO)+( -yO) og — folw®))) (43.6) yw 
=1 CN 
姓 


对 ， 就 是 这 个 。 分 类 也 是 在 这 个 目标 函数 中 增加 正则 化 项 就 行 了 ， 
道理 是 相同 的 。 


n m 


logL(0) = 一》 (ylog fo(w®) + (1—y)1log(1— fo(w®))) + D9% 
i=1 j=1 
(4.3.7) 
小 
1 Ul 
/Bo 喷 ， 怎 么 在 原来 的 目标 函数 上 加 上 和 负 号 了 呢 ? 攻 
对 数 似 然 函 数 本 来 以 最 大 化 为 目标 。 但 是 ， 这 次 我 想 让 它 变 成 和 
回归 的 目标 函数 一 样 的 最 小 化 问题 ， 所 以 加 了 负 号 。 这 样 就 可 以 
凑 


像 处 理 回归 一 样 处理 它 ， 所 以 只 要 加 上 正则 化 项 就 可 以 了 。 


转 符号 是 为 了 将 最 大 化 问题 替换 为 最 小 化 问 


SS 
河 
淮 
并 
这 
入 
河 


139 


反 转 了 符号 之 后 ， 在 更 新 参数 时 就 要 像 回归 一 样 ， 与 微分 的 函数 
的 符号 反方 向 移动 才 行 。 


咽 ， 这 个 没 问 题 。 等 等 ,目标 函数 的 形式 变 了 ,参数 更 新 的 表达 
式 也 会 变 吧 ? 


是 的 。 不 过 ， 只 要 再 把 正则 化 项 的 部 分 也 微分 了 就 行 ， 一 点 都 不 
难 。 我 们 从 回归 开始 一 起 来 做 一 下 吧 。 


大 好 了 1! 


刚才 我 们 把 回归 的 目标 函数 分 成 了 C(8) 和 R(9)。 这 是 新 的 目标 
函数 的 形式 ， 我 们 要 对 它 进 行 微分 。 


E(0) = C(0) + R(O) (4.3.8) 


嗯 ， 因 为 是 加 法 ， 所 以 对 各 部 分 进行 偏 微 分 对 吧 ? 


95(0) _ 0C(0) ，9R(g) 
00; 00; 00; (4.3.9) 


是 的 。C(9) 是 原来 的 目标 函数 ， 讲 解 回归 的 时 候 我 们 已 经 求 过 它 
的 微分 形式 了 。 还 记得 表达 式 2.3.17 吗 ? 


CO) _ 3 (jo(z20) 加 20 


00; i=1 (4.3.10) 


评估 


对 呀 ， 求 过 就 不 用 再 求 了 ， 所 以 接 下 来 只 要 对 正则 化 项 进行 微分 
就 行 了 。 


没 错 。 正 则 化 项 只 是 参数 平方 的 和 ， 所 以 它 的 微分 也 很 好 求 。 


入 
R(0)=3 » 
j=1 
A 和 oa 人 02 
本 201 202 | t+ 30m (4.3.11) 
确实 …… 这 样 对 吧 ? 
Bo) _ yy, 
00; (4.3.12) 


咽 ， 对 的 。 可 以 看 出 ， 在 微分 时 表达 式 中 的 3 被 抵消 ， 微 分 后 的 
表达 式 变 简单 了 。 


我 懂 了 。 那 么 最 终 的 微分 结果 就 是 这 样 的 。 


930 (file) 0)ah + 


很 好 。 剩 下 要 做 的 就 是 把 这 个 微分 结果 代入 到 参数 更 新 表达 式 里 去 。 
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‘@ 是 这 样 吗 ? 


0; := 0;—7 各 (jo(z2) 一 y® )z® 二 全 
(4.3.14) 


i 二 1 


没 错 ， 这 就 是 加 入 了 正则 化 项 的 参数 更 新 表达 式 。 不 过 ， 我 们 之 
前 说 过 一 般 不 对 90 应 用 正则 化 。R(9) 对 go 微分 的 结果 为 0， 所 
以 了 = 0 时 表达 式 4.3.14 中 的 A9; 就 消失 了 。 因 此 ， 实 际 上 我 们 需 
要 像 这 样 区 分 两 种 情况 。 


(E 到 ”这 个 我 也 明白 了 。 有 了 前 面 的 知识 作 铺 垫 ， 现 在 还 跟 得 上 。 


逻辑 回归 的 流程 也 是 一 样 的 。 原 来 的 目标 函数 是 C(9)， 正 则 化 项 
是 R(9)， 现 在 对 (9) 进行 微分 。 


Nn 


C(0) =—D (v1og fo(s®) + (1—y) log(1 — oO)) 


“= 
入 mm 
R(0) = 7 D0 
j=1 
EB(0)= C(0) + R(O) (4.3.16) 


人 可 以 对 每 一 项 分 别 进 行 微分 这 一 点 和 回归 是 相同 的 吧 ? 
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9B(0) _ 9C(9) .OR(O) 
00; 00; 00; (4.3.17) 


是 的 。 之 前 在 表达 式 3.7.16 中 我 们 已 经 求 过 逻辑 回归 原来 的 目标 
函数 C(9) 的 微分 ， 不 过 现在 考虑 的 是 最 小 化 问题 ， 所 以 要 注意 在 
前 面 加 上 负 号 。 也 就 是 要 进行 符号 的 反 转 。 


0C(0 ee 1 (2) 山 

i=1l (4.3.18) 
让 
1 es LN 
3 好 的 ， 这 个 没 问 题 。 jin 
另外 ， 刚 才 我 们 已 经 求 过 正则 化 项 R(0) 的 微分 了 ， 可 以 直接 使 用 。 
姓 

0R(O 
00; (4.3.19) 


式 应 该 是 这 样 的 一 一 这 次 我 把 bo 的 情况 区 分 出 来 了 。 


€ 》 哦 哦 ， 也 就 是 说 这 次 不 需要 任何 新 的 计算 。 那 么 ， 参 数 更 新 表达 


$= 


0;:=0;—1 鲁 (jaleO) 四 y9)z9 + pn (j > 0) 


i=1 (4.3.20) 至 
淹 
3 完全 正确 。 刚 才 我 介绍 的 方法 其 实 叫 L2 正则 化 。 四 
3 
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除 工 2 了 


R(0) 一 入 2 | 


(9 原来 正则 化 的 方法 不 止 一 个 。 那 用 哪个 好 呢 ? 


Ll 正则 化 的 特 和 


E 则 化 方法 之 外 ,还 有 LI1 正则 化 方法 。 它 的 正则 化 项 尺 是 
这 样 的 。 


(4.3.21) 


F 是 被 判定 为 不 需要 的 参数 会 变 为 0， 从 而 减少 变 
量 个 数 。 而 L2 正则 化 不 会 把 参数 变 为 0。 刚才 我 说 过 二 次 式 变 为 
一 次 式 的 例子 吧 ， 用 L1 正则 化 就 真 的 可 以 实现 了 。 


[LAY 2 正则 化 会 抑制 参数 ， 使 变量 的 影响 不 会 过 大 ， 而 L1 会 直接 去 


除 不 要 的 变量 。 


人 咽 。 使 月 


1 在 只 要 记 住 有 这 样 的 方法 就 行 ， 将 来 一 定 会 有 用 的 。 


4.4 


学 习 


曲线 


| 4.4:1 | 欠 拟 合 
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日 哪 个 正则 化 取决 于 要 解决 什么 问题 ， 不 能 一 概 而 论 。 现 


前 面 我 们 聊 了 很 多 过 拟 合 的 话题 ， 而 反 过 来 又 有 一 种 叫 作 欠 拟 合 
的 状态 ， 用 英文 说 是 underfitting。 在 这 种 情况 下 模型 的 性 能 也 会 
变 差 。 


一 个 是 过 度 训 练 ， 一 个 是 过 度 不 训练 ,“ 刚 刚好 ”是 很 重要 的 呀 。 


嗯 ， 不 过 要 做 到 “刚刚 好 ”出 人 意料 地 难 。 


欠 拟 合 是 与 过 拟 合 相反 的 状态 ， 所 以 它 是 没有 拟 合 训练 数据 的 状 
态 吧 ? 


是 的 。 比 如 用 直线 对 图 中 这 种 拥有 复杂 边界 线 的 数据 进行 分 类 的 情 
况 〈 图 421 )， 无 论 怎样 做 都 不 能 很 好 地 分 类 ， 最 终 的 精度 会 很 差 。 


> 分 类 为 


x Sx oe® Positive 
x 四 


图 4-21 


呵 ， 这 样 完全 不 行 呀 。 


出 现 这 种 情况 的 主要 原因 就 是 模型 相对 于 要 解决 的 问题 来 说 太 简 
单 了 。 


原因 也 和 过 拟 合 的 情况 相反 。 
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Ws 过 拟 合 与 欠 拟 合 基 本 上 是 相反 关系 ,原因 不 同 ， 解决 方 案 


| 4.4.2 | 区 分 过 拟 合 与 欠 拟 合 


6 


原来 是 这 样 。 但 是 ,我 们 只 对 模型 进行 评 佑 ， 然 后 根据 得 到 的 模 
型 精度 就 能 判断 模型 是 过 拟 合 还 是 欠 拟 合 吗 ? 


这 是 一 个 好 问题 。 我 也 正 想 简单 聊 一 下 这 个 事情 。 


人 3。 哦 ? 难道 我 接近 问题 的 核心 了 ? 


就 像 你 想 的 那样 ， 只 根据 精度 不 能 判断 是 哪 种 不 好 的 拟 合 。 


Ve 啊 ， 果 然 如 此 。 那 怎么 样 才能 判断 到 底 是 过 拟 合 还 是 欠 拟 合 呢 ? 


我 们 以 数据 的 数量 为 横 轴 、 以 精度 为 纵 轴 ， 然 后 把 用 于 训练 的 数 
据 和 用 于 测试 的 数据 画 成 图 来 看 一 看 就 知道 了 。 


这 是 什么 意思 呢 ? 


我 们 具体 来 看 一 个 例子 吧 。 考 虑 一 下 使 用 这 样 的 10 个 训练 数据 进 
行 回 归 的 场景 (图 4-22 )。 
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图 4-22 


这 些 数据 似乎 用 二 次 函数 来 拟 合 比 较 合 适 。 


是 的 ， 不 过 这 里 我 们 先 假设 fo(z) 是 


其 中 的 2 个 数据 用 作 训 练 数据 。 


就 2 个 吗 ? 


咽 ， 你 随便 选 2 个 吧 。 然 后 看 一 看 
je(z) 是 什么 形状 。 


一 次 函数 。 接 着 ， 只 随便 选择 


只 用 这 2 个 数据 进行 训练 后 ， 


图 4-23 
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没 错 。 在 这 个 状态 下 ，2 个 点 都 完美 拟 合 ， 误 差 为 0。 


这 是 只 有 2 个 训练 数据 的 缘故 呀 。 一 次 函数 肯定 会 以 通过 这 2 点 
为 目标 去 训练 的 。 


8 
9 那 这 次 把 10 个 数据 都 用 来 训练 呢 ? 


一 次 函数 吗 ? 尽 可 能 地 拟 合 数据 …… 是 这 样 吗 ( 图 4-24 )? 


图 4-24 


过 在 这 种 情况 下 ， 误 差 已 经 无 法 为 0 了 。 


3 fe(z) 是 一 次 函数 ， 这 是 没有 办 法 的 。 


是 的 。 这 里 我 想 说 的 就 是 如 果 模 型 过 于 简单 ， 那 么 随 着 数据 量 的 
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[区 测 照 的确 是 这 样 。 


把 这 种 情况 画 在 刚才 所 说 的 以 数据 的 数量 为 横 轴 、 以 精度 为 纵 轴 
的 图 上 ， 形 状 大 体 上 就 是 这 样 的 ( 图 4-25 )。 


使 用 训练 数据 时 的 精度 


数据 数量 


图 4-25 


[AY 我 看 懂 了 。 一 开始 精度 很 高 ， 但 随 着 数据 量 的 增加 ， 精 度 一 点 点 
地 变 低 了 。 


接 下 来 用 测试 数据 来 评估 一 下 。 假 设 在 刚才 的 10 个 训练 数据 之 
外 ， 还 有 测试 数据 。 我 们 用 这 些 测试 数据 来 评估 各 个 模型 ， 之 后 
j 同 样 的 方法 求 出 精度 ， 并 画 成 图 。 


(A 用 测试 数据 先 评估 根据 2 个 训练 数据 训练 好 的 模型 ,再 评估 根据 
E 10 个 训练 数据 训练 好 的 模型 …… 然 后 依次 求 出 精度 ? 


精度 很 低 ; 反 过 来 说 ,训练 数 据 变 多 时 ， 预 测 精度 就 会 一 点 点 地 


个 对 对 。 训 练 数据 较 少时 训练 好 的 模型 难以 预测 未 知 的 数据 ， 所 以 
变 高 。 用 图 来 展示 就 是 这 样 的 (图 4-26 )。 
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使 用 训练 数据 时 的 精度 


测试 数据 时 的 精度 
0 > 
数据 数量 
图 4-26 
我 明白 了 。 


将 两 份 数据 的 精度 用 图 来 展示 后 ， 如 果 是 这 种 形状 ， 就 说 明 出 现 
了 欠 拟 合 的 状态 。 也 有 一 种 说 法 叫 作 高 偏差 ， 指 的 是 一 回 事 。 


这 是 一 种 即使 增加 数据 的 数量 ,无 论 是 使 用 训练 数据 还 是 测试 数 
据 ， 精 度 也 都 会 很 差 的 状态 吧 ? 


评估 


用 语言 来 描述 是 


这 么 回 事 。 图 中 需要 汶 


FE 意 的 点 在 这 里 ( 图 4-27 )。 


使 用 训练 数据 时 的 精度 低 


数据 数量 


图 4-27 


而 在 过 拟 合 的 情况 下 ， 图 是 这 样 的 (图 4-28 )。 这 也 叫 作 高 方差 。 


十 使 用 训练 数据 时 的 精度 


数据 数量 


随 着 数据 量 的 增加 ， 使 用 训练 数据 时 的 精度 一 直 很 
试 数据 时 的 精度 一 直 没 有 上 升 到 它 的 水 准 。 


注意 的 点 在 这 里 (图 4-29 )。 


， 而 使 用 测 


只 对 训练 数据 拟 合 得 较 好 ， 这 就 是 过 拟 合 的 特征 。 这 张 图 中 需要 
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使 用 训练 数据 时 的 精度 高 
四 ce 
0 > 
数据 数量 
图 4-29 


原来 如 此 。 这 两 张 图 分 别 展示 了 欠 拟 合 和 过 拟 合 的 特征 。 


像 这 样 展 示 了 数据 数量 和 精度 的 图 称 为 学 习 曲 线 。 


学 习 曲 线 呀 。 那 在 知道 模型 精度 低 ， 却 不 知道 是 过 拟 合 还 是 欠 拟 
合 的 时 候 ， 是 不 是 画 一 下 学 习 曲 线 就 好 了 ? 


没 错 。 通 过 学 习 曲 线 判断 出 是 过 拟 合 还 是 欠 拟 合 之 后 ， 就 可 以 采 
取 相 应 的 对 策 以 便 改进 模型 了 。 


模型 评 佑 听 上 去 很 简单 ， 但 其 实 有 很 多 内 容 。 我 现在 知道 为 什么 
说 只 懂得 机 器 学 习 的 算法 是 不 够 的 了 。 


关于 模型 评估 的 指标 和 方法 ， 除 了 今天 讲 的 之 外 还 有 其 他 的 ， 有 
兴趣 的 话 你 自己 研究 一 下 哦 。 


好 的 ， 今 天 太 感 谢 你 了 ! 


评估 


在 这 一 章 ， 绫 乃 终于 要 挑战 回归 和 分 类 的 编程 实现 了 。 
她 能 不 能 用 代码 来 实现 之 前 学 到 的 东西 呢 ? 
附录 A.8 介绍 了 搭建 编程 环境 的 方法 ， 大 家 也 和 绫 乃 一 起 编写 代码 吧 。 


| 5.1 | 使 用 Python 实现 


我 已 经 从 你 这 里 学 到 回归 、 分 类 和 模型 的 评估 了 ， 你 还 建议 我 学 
些 什 么 呢 ? 


嗯 …… 其 实 还 有 很 多 机 带 学 习 算 法 ， 而 且 最 新 的 研究 成 果 中 也 有 
很 多 有 意思 的 内 容 ， 人 研究 一 下 就 会 发 现 有 许多 面向 各 种 用 途 的 
模型 。 不 过 ， 就 基础 知识 而 言 ， 我 觉得 你 现在 学 到 的 东西 已 经 够 
用 了 。 


基础 知识 已 经 够 用 了 吗 …… 可 我 心里 还 很 没 底 呀 。 


我 觉得 以 你 现在 学 到 的 知识 ， 即 使 我 不 在 你 也 可 以 继续 研究 下 去 。 
因为 在 前 面 学 习 回 归 和 分 类 的 时 候 ， 我 们 已 经 看 过 用 训练 数据 更 
新 参数 的 过 程 。 虽 然 每 一 种 算法 的 具体 方法 不 同 ， 但 这 个 基本 的 
思路 对 于 其 他 机 器 学 习 算 法 来 说 也 是 相通 的 。 只 要 掌握 了 根据 数 
据 来 更 新 参数 这 一 点 ， 就 容易 理解 算法 了 。 


er 


嗯 ， 这 个 我 知道 。 不 过 ,我 还 是 担心 自己 一 个 人 不 能 理解 。 


试 着 使 用 某 种 语言 实现 回归 和 分 类 可 以 加 深 理 解 ， 要 不 咱们 先 一 


哦 ， 对 呀 ! 亲自 实现 一 下 比较 好 。 


咱们 一 起 来 吧 。 你 擅长 哪 种 语言 ? 


我 想 用 Python 来 试 试 ， 虽 然 我 并 不 擅长 这 门 语言 …… 


你 没 怎么 用 过 Python 吧 ? 真有 挑战 精神 呀 。 


我 知道 它 是 机 器 学 习 领 域 常 用 的 语言 ， 所 以 对 它 有 兴趣 。 我 学 过 
它 的 基本 语法 ， 所 以 没 问题 的 。 去 


必 


和 = 不 愧 是 现役 程序 员 ， 那 我 就 放心 了 。 
| 
5.2 | 回归 : 
| 5.2.1 | 确认 训练 数据 
有 RN 姓 


[eg 


我 们 先 从 回归 的 实现 开始 。 我 随便 准备 了 一 些 训练 数据 ， 就 用 
们 来 实现 吧 。 


mClick.csv 


X,y 


235,591 


知 


216 ,539 


148 ,413 


35,310 


85,308 


204,519 
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49,325 


25 ,332 


173 ,498 


191,498 


134,392 


99,334 


117,385 


112,387 


162,425 


272,659 


159,400 


159,427 


59,319 


198 ,522 


这 就 是 所 谓 的 训练 数据 吧 。 全 是 数字 根本 看 不 出 是 怎么 回 


hl 


4d 
oO 


是 啊 ， 先 用 Matplotlib 绘图 ， 结 合 图 来 看 就 好 理解 了 (图 5-1 )。 


对 哦 。 


ee 图 库 。 本 书 利用 它 来 进行 数据 可 视 化 ， 但 绘图 
dt et 大 家 可 以 适当 跳 过 。 丛 详细 了 解 
， 请 参考 其 官 


下 面 执行 Python 的 源 代码 。 关 于 Python 环境 的 准备 和 执行 方法 ， 请 
参考 附录 A.8 至 附录 A.10。 下 面 的 示例 代码 中 ,“>>>” 右 侧 的 代码 需 
要 逐 行 输入 ， 然 后 敲 回 车 键 执行 。 如 果 出 现 了 “…”， 那 就 先 缩 进 ， 再 
输入 代码 、 敲 回 车 。 


= 在 Python 交互 式 环境 中 执行 ( 示例 代码 : 5-2-1 ) 纵 
二 
>>> import numpy as np 
>>> import matplotlib.pyplot as plt = 
>>> 
调 
>>> # 读 入 训练 数据 > 
二 
>>> train = np.loadtxt('click.csv', delimiter=',', skiprows=1) 
>>> train_ x = train[:,0] 
>>> train_y = train[:,1] a 
>>> UO 
项 
>>> # 绘图 
>>> plt.plot(train_x, train_y, '0') 
>>> plt.show() 由 
3 
二 
不 
650 十 
600 十 . 
550 十 
eo 
500 十 @ @ 
450 十 
oo™ 
400 十 oo?° eg 
350 十 
a 。°. 人 凑 
5300 十 | | | | 上 
50 100 150 200 250 
图 5-1 到 
这 段 代 码 我 看 懂 了 。 这 个 数据 跟 你 在 讲解 回归 时 使 用 的 数据 很 像 啊 。 
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全 嗯 ,我 就 是 仿照 那个 数据 做 的 。 


| 5.2.2 | 作为 一 次 函数 实现 
仪 i 次 函数 来 实现 吧 。 我 们 要 实现 下 面 
3 z) 和 目标 函数 E(0)。 


folz) 一 Oo 十 O17 


B00)= 3 (0 fle®)) 


3 要 进行 go 和 91 的 初始 化 对 吧 ? 用 随机 值 作 初 始 值 ? 


= 在 Python 交互 式 环境 中 执行 ( 示例 代码 : 5-2-2 ) 


i 这 样 的 


(5.2.1) 


>>> # 参数 初始 化 


>>> theta0 = np.random.rand() 


>>> thetal = np.random.rand() 


>>> # 预测 函数 


>>> def f(x): 


return theta0 + 七 hetal * x 


>>> # 目标 函数 


>>> def E(x, y): 


return 0.5 * np.sum((y - f(x)) ** 2) 


没 错 ， 很 好 。 


好 的 ， 这 样 就 完成 事前 准备 了 。 接 下 来 要 实现 参数 更 新 的 部 分 啦 。 


| 由 


在 这 之 前 ， 还 有 一 件 事情 最 好 做 一 下 : 把 训练 数据 变 成 平均 值 为 
0、 方 差 为 1 的 数据 。 


Ve 次 ， 这 是 什么 意思 呢 ? 


这 个 预 处 理 不 是 必须 的 , 但 是 做 了 之 后 ， 参 数 的 收敛 会 更 快 。 这 
种 做 法 也 被 称 为 标准 化 或 者 z-score 规范 化 ， 变 换 表 达 式 是 这 样 
的 。k 是 训练 数据 的 平均 值 ，o 是 标准 差 *。 


(en (5:2;2) 


[ 训 本 ， 那 事先 还 是 做 一下 变换 比较 好 是。 是 这 样 中? 


s 在 Python 交互 式 环境 中 执行 (示例 代码 : 5-2-3 ) 


>>> # 标准 化 


>>> mu = train_x.mean() 


>>> sigma = train_x.std() 


>>> def standardize(x): 


return (x - mu) / sigma 


>>> train_z = standardize(train_x) 


* 标准 差 为 方差 的 平方 根 。 译 者 注 
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是 的 。 把 变换 后 的 数据 也 用 图 展现 出 来 ( 图 5-2 )， 我 们 会 看 到 只 
有 横 轴 的 刻度 改变 了 。 


= 在 Python 交互 式 环境 中 执行 ( 示例 代码 : 5-2-4 ) 


>>> plt.plot (train_z, train_y, 'o') 


>>> plt.show() 


个 
650 十 本 
600 十 
550 十 
500 十 @ @ 
450 十 
400 十 


350 十 


300 十 一 一 一 一 一 一 
一 1.5 一 1.0 一 0.5 0.0 0.5 1.0 1.5 2.0 


> 


CC 果 直 如 此 。 模 轴 的 刻度 变 小 了 。 


接 下 来 就 是 参数 更 新 部 分 的 实现 了 。 还 记得 更 新 表达 式 吗 ? 


® 
Co 
小 
EM 
姓 
将 
省 


0 :一 加 一 1 入 (folz®) 由) 
i=1 


0 := nD (f(z®) —y )z® 
;= 


(5.2.3) 


咽 ， 记得。 将 7 设 为 多 大 的 值 合适 呢 ? 


这 个 不 能 一 概 而 论 ， 要 试 几 次 才能 确定 ， 先 设置 为 10 一 吧 。 


[1 好 的 。 对 了 ， 你 说 过 要 对 目标 函数 进行 微分 ， 不断 重复 参数 的 更 
C 新 ， 那么 要 重复 几 次 呢 ? 


我 们 可 以 指定 次 数 ， 也 可 以 比较 参数 更 新 前 后 目标 函数 的 值 ， 如 
果 值 基本 没什么 变化 ， 就 可 以 结束 学 习 了 。 


对 哦 ， 比 较 更 新 前 后 的 值 就 行 啦 。 


另外 还 有 一 点 需要 注意 : 参数 的 更 新 必须 同时 进行 。0o 更 新 结束 后 
准备 更 新 91 时 ， 不 能 使 用 更 新 后 的 0， 而 必须 要 使 用 更 新 前 的 bo。 


原来 是 这 样 ， 那 我 就 基于 这 些 原 则 来 实现 了 。 这 样 对 吗 ? 我 顺便 
把 日 志 也 打出 来 吧 。 
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知 


= 在 Python 交互 式 环境 中 执行 ( 示例 代码 : 5-2-5 ) 


>>> 


# 学 习 率 


>>> 


ETA = 1e-3 


>>> 


>>> 


# 误差 的 差 人 


>>> 


diff = 1 


>>> 


>>> 


>>> 


>>> 


>>> 


:3 
| 四 | 
六 
性 
RY 


>>> 


error = E(train_z, train_y) 


>>> 


while diff > le-2: 


# 更 新 结果 保存 到 临时 变量 


tmp0 = theta0 - ETA * np.sum((f(train_z) - train_y)) 


tmp1 = thetal - ETA * np.sum((f(train_z) - train_y) * train_z) 


# 更 新 参数 


theta0 = tmp0 


thetal = tmpli 


# 计算 与 上 一 次 误差 的 差 人 


current_error = E(train_z, train_y) 


diff = error - current_error 


error = Current error 


# 输出 日 志 


count += 1 


log = ' 第 们 次 : theta0 = {:.3f}, thetal = {:.3f}, 


= {:.4f}' 


print (log.format (count, theta0, thetal, diff)) 


输出 的 日 志 是 这 样 的 。 


a 日 志 全 二 
# … 和 省 略 
第 401 次 : theta0 = 420.440，thetal = 88.324， 差 值 = 0.0142 让 
第 402 次 : theta0 = 420.444，thetal = 88.325， 差 值 = 0.0137 
第 403 次 : theta0 = 420.447，thetal = 88.325， 差 值 = 0.0132 一 
第 404 次 : theta0 = 420.451，thetal = 88.326， 差 值 = 0.0127 由 
第 405 次 : theta0 = 420.454，thetal = 88.327， 差 值 = 0.0122 人 
第 406 次 : theta0 = 420.458，thetal = 88.327， 差 值 = 0.0117 
第 407 次 : theta0 = 420.461，thetal = 88.328， 差 值 = 0.0113 二 
第 408 次 : theta0 = 420.464，thetal = 88.329， 差 值 = 0.0109 
第 409 次 : theta0 = 420.467，thetal = 88.330， 差 值 = 0.0105 人 
第 410 次 : theta0 = 420.470，thetal = 88.330， 差 值 = 0.0101 
第 411 次 : theta0 = 420.473，thetal = 88.331， 差 值 = 0.0097 了 

让 
小 
姓 


咽 ， 好像 执 行 成 功 了 。 多 次 执行 之 后 就 会 发 现 ,循环 次 数 和 误差 
的 减少 量 在 每 次 执行 时 都 不 一 样 ， 这 一 点 需要 注意 。 


这 是 因为 参数 的 初始 值 是 随机 决定 的 吗 ? 


是 的 。 既 然 学 习 已 经 完成 了 ,为 了 确认 结果 ,我 们 用 图 来 展示 一 
下 训练 数据 和 fo(7x) 吧 (图 5-3)。 


知 
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= 在 Python 交互 式 环境 中 执行 ( 示例 代码 : 5-2-6 ) 


>>> x = np.linspace(-3, 3, 100) 


>>> 


>>> plt.plot (train_z, train_y, 'o') 


>>> plt.plot (x, f(x)) 


>>> plt.show() 


铬 误 “ 畦 ,好 厉害 。 一 次 函数 拟 合 了 训练 数据 。 


| 5.2.3 | 验证 


图 5-3 


由 于 


试 着 随意 输入 xz 来 预测 点 击 量 吧 。 不 过 要 注意 ， 


答案 。 


F 


对 路 ,我 们 已 经 做 了 标准 化 。 我 来 试 试看 。 


已 经 对 训练 


数据 进行 了 标准 化 ， 所 以 预测 数据 也 要 标准 化 ， 和 否则 得 不 出 正确 


= 在 Python 交互 式 环境 中 执行 ( 示例 代码 : 5-2-7 ) 


>>> f(standardize (100)) 


370.70966211722651 


>>> f(standardize (200)) 


506.36421751505327 


>>> f(standardize(300)) a 


642.01877291287997 


时 

ID 

好 厉害 ， 预 测 出 的 结果 很 像 那么 回 事 ! 几 

这 里 汇总 了 你 前 面 所 写 的 代码 。 

二 

a 示例 文件 : regression1_linear.py* 到 
import numpy as np 
小 

import matplotlib.pyplot as plt 山 


# 读 入 训练 数 


train = np.loadtxt('click.csv', delimiter=',', dtype='int', skiprows=1) 


HO 


train x = train[:,0] 


train_y = train[:,1] 


# 标准 化 


mu = train_x.mean() 


知 


sigma = train_x.std() 


* 欲 执 行 这 个 示例 代码 文件 ， 需 要 暂时 结束 交互 式 环 境 (参见 附录 A.8.2 )。 不 过 之 后 的 
示例 代码 5-2-8 及 后 续 代 码 都 是 示例 代码 5-2-7 的 延续 ， 如 果 结 束 了 交互 式 环境 ， 就 
需要 重新 输入 从 5-2-1 开始 的 代码 ， 这 一 点 请 注意 。 
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def standardize(x): 


return (x - mu) / sigma 


train_z = standardize(train_x) 


# 参数 初始 化 


theta0 = np.random.rand() 


thetal = np.random.rand() 


# 预测 函数 


def f(x): 


return theta0 + 七 hetal * x 


# 目标 国 娄 


def E(x, y): 


return 0.5 * np.sum((y - f(x)) ** 2) 


# 学 习 率 


ETA = le-3 
# 误差 的 差 人 
diff = 1 


# 蝎 新 次 类 


count = 0 


# 直到 误差 的 差 值 小 于 0.01 为 止 ， 奸 


mon 
六 


参数 更 新 


error = E(train_z, train_y) 


while diff > le-2: 


# 更 新 结果 保存 到 临时 变量 


tmp_theta0 = theta0 - ETA * np.sum((f(train_z) - train_y)) 


tmp_thetal = thetal - ETA * np.sum((f(train_z) - train_y) * train_z) 


# 更 新 参数 二 二 


theta0 = tmp_theta0 


thetal = tmp_thetal S 


攻 


# 计算 与 上 一 次 误差 的 差 人 于 


current_error = E(train_z, train_y) 


时 
diff = error - current_error DN 
error = current_error 机 
# 输出 日 志 

有 
count += 1 (N 
A 二 

log = ' 第 世 次 : theta0 = {:.3f}j，thetal = {:.3f}， 差 值 = {:.4f}' 
print (log.format (count, theta0, thetal, diff)) == 
# 绘图 确认 小 
项 


x = np.linspace(-3, 3, 100) 


plt.plot(train_z, train_y, '0') 


plitplot (x, f(x)) 


plt.show() 


于 实现 的 代码 量 比 预 想 的 要 少 很 多 嘛 。 


二 


知 


因为 这 是 一 个 非常 简单 的 问题 呀 。 
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| 5.2.4 | 多 项 式 回归 的 实现 


3 


我 们 顺便 来 实现 多 项 式 回 归 吧 。 


fo(z) = t+ O17 or” (5.2.4) 


如 果 要 使 刚才 的 代码 支持 多 项 式 
换 预测 函数 吧 ? 


加 


归 ， 只 需要 增加 参数 0。 ， 并 替 


这 么 说 虽然 没 错 , 但 正如 我 们 在 学 习 多 重 回归 时 了 解 的 那样 ， 将 
参数 和 训练 数据 都 作为 向 量 来 处 理 ， 可 以 使 计算 变 得 更 简单 。 


00 1 
0=|10| xz? =| 7zg 
02 x (5.2.5) 


啊 ， 向 量 呀 …… 当 时 我 们 确实 是 那么 做 的 。 


不 过 由 于 训练 数据 有 很 多 ， 所 以 我 们 把 1 行 数据 当 作 1 个 训练 数 
据 ， 以 矩阵 的 形式 来 处 理会 更 好 。 


.Dr 1] GD (0D2 
£0)T ] 722) 2) 
X=| zr | |1 zr3) zr 
pln) 1 x) rn) 


(5.2.6) 


了 求 这 个 矩阵 与 参数 向 量 9 的 积 。 这 样 一 下 子 就 能 计算 好 了 。 


TT 
00 -I 0171) 二 02z0D? 


(2) (2)? 
1 8) C0) bo Go + Or) + a7) 、 
XO0= ZT 7 01 | = 3 
: 02 。 ， 二 
2 bo + O20™) 十 gaz() 
1 Zz) zk) (5.2.7) 
识 
我 明白 啦 ! > 
:ROW: 二 
s 在 Python 交互 式 环境 中 执行 (示例 代码 : 5-2-8 ) 
>>> # 初始 化 参数 a 
>>> theta = np.random.rand(3) 下 
>>> = 
>>> # 创建 训练 数据 的 矩 阵 
>>> def to_matrix(x): ~ 
二 


return np.vstack([np.ones(x.shape[0]), x, x ** 2]).T 


>>> X = to_matrix(train_z) 


Su 


>>> # 预测 函数 


>>> def f(x): 


return np.dot (x, theta) 


知 
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对 对 ， 就 是 这 样 。 接 下 来 参数 更 新 的 部 分 也 要 改 一 下 。 更 新 表达 式 
可 以 像 这 样 写 成 通用 的 表达 式 ， 我 们 在 学 习 多 重 回归 时 见 过 它 。 


0; :=0; -7 (fel) yO) 
2 下 


(5.2.8) 


这 里 很 容易 让 人 想到 用 循环 来 实现 ， 但 其 实 如 果 好 好 利用 训练 数 
据 的 矩阵 入 ， 就 能 一 下 子 全 部 计算 出 来 。 


这 是 什么 意思 ? 


样子 。 这 个 没 问题 吧 ? 


9 比如 在 了 二 0 的 时 候 ， 把 更 新 表达 式 的 并 部 分 展开 ， 就 会 变 成 这 


6 


嗯 ， 这 里 只 是 把 2 换 成 了 加 法 形式 。 


8 
| 把 表达 式 中 fe(z 中 ) -vy 和 zw0 的 部 分 分 别 当 作 向 量 来 处 理 。 


fo(z¥) — yD 到 

Ho(zO) — yl we 
六 三 To 二 : 

fo(z™) 一 yy 7 四 


六 参见 2.5 节 的 表达 式 2.5.10。 


170 | 第 5 章 | 实现 


姓 


te 原来 是 这 样 。 把 了 转 置 之 后 与 zo 相 乘 ， 就 与 和 的 部 分 一 样 了 。 


> (peO -v0)) a = F720 一 
i=1 (5.2.11) 洲 
本 

没 错 。 这 里 考虑 的 还 只 是 ; = 0 的 情况 ， 而 参数 共有 3 个 ， 再 用 同 
样 的 思路 考虑 z1 和 zs 的 情况 就 好 了 。 一 
识 
DD 
友信 现在 z 亿 全 部 为 1，z0 为 zx、z9) 为 zx ， 对 吗 ? 岂 
] 7 7()? 
1 全 二 un 
Xo 二 5 ;Tl1 一 ， 化 2 一 
1 zn) gp 
i wt a A 
1] 7) 0 

X=[zo zi xz2|=|1 13) zr) 


(5.2.12) 


知 


(E ”然后 就 该 将 了 和 这 个 入 相 乘 了 吧 ? 


并 和 (5.2.13) 
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3 的 确 如 此 ， 我 试 着 实现 一 下 …… 是 这 样 的 吗 ? 


咽 ， 这样 就 能 一 次 性 地 更 新 9 了 。 


a 在 Python 交互 式 环境 中 执行 ( 示例 代码 : 5-2-9 ) 


# 


误差 的 差 人 


>>> di 


ff=1 


>>> # 


| 四 | 
Cul 
性 
MM 


>>> er. 


ror = E(X, train_y) 


>>> While diff > 1e-2: 


并 


更 新 参数 


theta = theta - ETA * np.dot(f(X) - train_y, X) 


# 计算 与 上 一 次 误差 的 差 人 


current_error = E(X, train_y) 


diff = error - current_error 


error = current_error 


/i 


名 


h 


区 3 
a x| 
DD: 


很 好 ， 代 码 简 单 多 了 ， 也 执行 成 功 了 。 


再 把 结果 绘图 吧 。 


好 ， 我 们 来 看 一 下 图 ( 图 5-4 )。 


a 在 Python 交互 式 环境 中 执行 ( 示例 代码 : 5-2-10 ) 


>>> x = np.linspace(-3, 3, 100) 


>>> 


32> Plt Plot (train_z, train y; Oo 


>>> plt.plot(x, f(to_matrix(x))) 


>>> plt.show() 一 


让 
800 ] DN 

项 
700 ] 
600 + 上 
500 ] 让 

CN 
400 ] 项 
300 4 

图 5-4 
小 
项 


gl 训 。 这 次 变 成 了 拟 合 训练 数据 的 曲线 了 1 


顺利 完成 。 


人 经 实现 了 一 人 遍 之 后 ,我 的 理解 确实 更 深刻 了 。 


知 
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以 重复 次 数 为 横 轴 、 均 方 误差 为 纵 轴 来 绘图 ， 应 该 还 会 看 到 曲线 
不 断 下 降 的 样子 。 


Tk 


Ve 均 方 误差 是 用 表达 式 4.2.1 计算 的 那个 吗 ? 


> (vo fo(z®)) 


(5.2.14) 


3 在 停止 重复 的 条 件 里 可 以 用 上 均 方 误差 吧 ? 我 试 试看 (图 5-5 )。 


s 在 Python 交互 式 环境 中 执行 ( 示例 代码 : 5-2-11 ) 
>>> # 均 方 误差 


>>> def MSE(x, y): 


return (1 / x.shape[0]) * np.sum((y - f(x)) ** 2) 


>>> # 用 随机 值 初始 化 参数 


>>> theta = np.random.rand(3) 


>>> 


>>> # 均 方 误差 的 历史 记录 


>>> errors = [] 


>>> 


>>> # 误差 的 差 人 


>>> diff = 1 


>>> 


ml 
六 
性 
Ry 


>>> # 


>>> errors.append(MSE(X, train_y)) 


>>> While diff > 1e-2: 


theta = theta - ETA * np.dot(f(X) - train_y, X) 


errors.append (MSE(X, train_y)) 


diff = errors[-2] - errors[-1] 


网 


>>> # 绘制 误差 变化 


>>> x = np.arange(len(errors)) 


So 


>>> plt.plot (x, errors) 


>>> plt.show() 
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误差 果然 不 断 在 下 降 。 


现在 你 对 回归 已 经 掌握 得 很 好 了 。 


图 5-5 
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姓 


站 


知 


| 5.2.5 | 随机 梯度 下 降 法 的 实现 
咱们 再 试 试 随机 梯度 下 降 法 的 实现 吧 ? 


好 的 ， 试 试看 吧 。 


人 人 随机 梯度 下 降 法 的 做 法 是 使 用 表达 式 2.6.2 来 更 新 参数 ， 表 达 式 中 
的 天 是 随机 选择 的 ， 对 吧 ? 


0; := 0; —n (fo(z2®)) — y®) 2 (5.2.15) 
咽 。 现 在 有 了 训练 数据 的 矩阵 六， 把 行 的 顺序 随机 地 予以 调整 ， 
然后 重复 应 用 更 新 表达 式 就 行 了 。 
3 我 试 试看 。 


= 在 Python 交互 式 环境 中 执行 ( 示例 代码 : 5-2-12 ) 
>>> # 用 随机 数 对 参数 初始 化 


>>> theta = np.random.rand(3) 


>>> 


>>> # 均 方 误差 的 历史 记录 


>>> errors = [] 


>>> 


>>> # 误差 的 差 人 


>>> diff = 1 


Wl 


>>> # 重复 学 习 


>>> errors.append (MSE(X, train_y)) 


>>> while diff > 1e-2: 
# 为 了 调整 训练 数据 的 顺序 ， 随机 的 序列 2 
p = np.random.permutation(X.shape[0]) 
# 随机 取出 训练 数据 ， 使 用 随机 梯度 下 降 法 更 新 参数 


for Xs 了 in zip(X[p;s:], traiv yl[lpl)e: 


theta = theta - ETA * (f(x) - y) * x 本 


~ Au 


# 计算 与 上 一 次 误差 的 差 人 


识 
errors.append (MSE(X, train_y)) po 
diff = errors[-2] - errors[-1] 

CN 

姓 

区 3 没有 错误 ,应 该 是 正常 执行 了 。 再 次 绘图 来 确认 一 下 (图 5.6)。 时 
RON: 

a ee I 
a 在 Python 交互 式 环境 中 执行 ( 示例 代码 : 5-2-13 ) 册 


>>> x = np.linspace(-3, 3, 100) 


>>> 


>>> plt.plot (train_z, train_y, 'o') 


>>> plt.plot(x, f(to_matrix(x))) 


>>> plt.show() 


177 


图 5-6 


对 于 多 重 回归 的 实现 ， 也 可 以 像 多 项 式 回归 时 那样 使 


] 和 矩阵 吗 ? 


基本 上 是 可 以 的 。 不 过 要 注意 对 多 重 回 归 的 变量 进行 标准 化 时 ， 


必须 对 每 个 参数 都 进行 标准 化 。 如 果 有 变量 zl、za 、zs ， 就 要 分 
别 使 用 每 个 变量 的 平均 值 和 标准 差 进 行 标 准 化 。 
(2) zx —H1 
Z1 一 
01 
(0) __ 0 一 /2 
Zo 一 
O02 
2 zr — ps 
03 (5.2.16) 


统计 学 领域 有 一 个 著名 的 数据 集 ， 叫 Fis ， 使 用 Tris 数据 集 来 进行 
各 种 尝试 应 该 会 很 有 意思 。 利 用 已 学 到 的 知识 ， 你 应 该 没 问 题 的 。 


伦 二 ms 吧 谢谢， 我 下 次 用 它 试 试 看 本 


> 
| 5.3 | 分 类 一 一 感知 机 
识 
D 
需 
| 5.3.1 | 确认 训练 数据 
a 
3 接 下 来 我 要 挑战 分 类 问题 的 实现 ! 需 
全 我 们 接触 过 感知 机 和 逻辑 回归 两 种 分 类 ， 先 从 感知 机 开始 怎么 样 ? 
姓 
3 好 啊 ， 两 个 我 都 想 试 试 。 


和 回归 的 时 候 一 样 ， 这 次 我 又 随便 准备 了 一 些 用 于 分 类 的 数据 ， 
我 们 就 用 它们 吧 。 


知 
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em images1.csv 


X1,X2 ,y 


153,432,-1 


220;262,= 


118,214,-1 


474,384,1 


485,411,1 


233,430,-1 


396,361,1 


484,349,1 


429,259,1 


286,220,1 


399,433,-1 


403,340,1 


252,34,1 


497,472,1 


379,416,-1 


T61633=1 


263,112,1 


26;193;,=1 


61,473,-1 


420,253,1 


好 。 在 图 
可 能 会 更 容易 理解 。 


这 是 分 类 问题 的 训练 数据 吧 。 那 和 回归 的 时 修一 样 ， 先 将 它们 画 
成 图 来 看 看 吧 。 


日 


j 圆 点 表示 y = 1 的 数据 、 用 又 号 表示 y = 一 1 的 数据 


我 试 试看 (图 5-7 )。 


= 在 Python 交互 式 环境 中 执行 ( 示例 代码 : 5-3-1 ) 


>>> 


import numpy as np 


>>> 


import matplotlib.pyplot as 


plt 


i 


>>> 


# 读 入 训练 数据 


>>> 


train = np.loadtxt('imagesl 


.Csv', delimiter=',', skiprows=1) 


>>> 


train x = train[:,0:2] 


>>> 


train_y = train[: ,2] 


>>> 


Se 


唤 


# 绘 


>>> 


plt.plot(train_x[train_y 


1, 0], train_x[train_y = 


ll 
$s 
Re 
sd 


>> 


plt.plot(train_x[train_y 


-1, 0], train_x[train_y = 


ll 

1 
es 
Pg 
td 


>>> 


plt.axis('scaled') 


>>> 


plt.show() 
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图 5-7 
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p= 
ey 


gj。 呵呵， 原来 是 这 样 的 数据 呀 ! 


| 5.3.2 | 感知 机 的 实现 


首先 要 初始 化 感知 机 的 权重 ， 然 后 实现 这 个 在 表达 式 3.3.1 中 出 现 
的 函数 fu(2)。 


(5.3.1) 


‘a 好 ， 我 先 写 一 下 权重 初始 化 和 用 于 定义 判别 函数 的 代码 。 


s 在 Python 交互 式 环境 中 执行 ( 示例 代码 : 5-3-2 ) 
>>> # 权重 的 初始 化 


>>> W = np.random.rand(2) 


>>> 


>>> # 判别 函数 


>>> def f(x): 


if np.dot(w, x) >= 0: 


return 1 


else: 


return -1 


咽 ， 好 的 。 接 下 来 只 需 实现 权重 的 更 新 表达 式 ， 也 就 是 以 前 我 们 
讲 过 的 表达 式 3.3.3。 很 简单 哦 。 


wy do) (foal) #0) 
Ww (fat) 一 2() (5.3.2) 


感知 机 停止 学 习 的 标准 是 什么 呢 ? 它 没 有 类 似 于 回归 的 目标 函数 
的 东西 吧 ? 


Yn 


1 


可 


| 
2 
Ee 


根据 精度 来 决定 是 否 停止 是 最 好 的 ， 不 过 这 里 我 们 姑且 先 重 复 10 
次 好 了 。 


= 


人 


好 的 ! 


Sb 


= 在 Python 交互 式 环境 中 执行 ( 示例 代码 : 5-3-3 ) 


>>> # 重复 次 数 
h 


>>> # 更 新 次 数 


>>> count = 0 


Im 


>>> # 学 习 权 奸 


>>> for _ in range(epoch) : 


for x, y in zip(train_x，train_y) : 


if f(x) != y: 


和 三 内 下巴 于 革 


# 输出 日 志 


count += 1 


print(' 第 们 次 : w= {}'.format(count, Ww)) 
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输出 的 日 志 是 这 样 的 。 


= 日志 
第 1 次 : w= [-152.90496544 -431.57980099] 
第 2 次 : w= [ 321.09503456 -47.57980099] 
第 3 次 :w= [ 88.09503456 -477.57980099] 
第 4 次 : w= [ 484.09503456 -156.57980099] 
第 5 次 :w= [ 85.09503456 -589.57980099] 
第 6 次 : w= [ 488.09503456 -289.57980099] 
第 7 次 : w= [ 109.09503456 -705.57980099] 
第 8 次 : w= [ 372.09503456 -593.57980099] 
第 9 次 : w= [ 846.09503456 -209.57980099] 
第 10 次 : w = [ 613.09503456 -639.57980099] 


那 我 们 画 一 条 直线 看 看 吧 。 使 权重 向 量 成 为 法 线 向 量 的 直线 方程 
是 内 积 为 0 的 zx 的 集合 。 所 以 对 它 进行 移 项 变形 ， 最 终 绘 出 以 下 
表达 式 的 图 形 即 可 。 


WwW: T= wiITri+ wr = 0 
WI1 


ZX» 一 一 一 化 1 
202 (5.3.3) 


咽 ， 我 试 试看 ( 图 5-8 )。 


= 在 Python 交互 式 环境 中 执行 ( 示例 代码 : 5-3-4 ) 


>>> xl = np.arange(0, 500) 
>>> 
>>> plt.plot(train_x[train_y == 1, 0], train x[train_y == 1, 1], 'o') 
>>> plt.plot (train_x[train_y == -1, 0], train_x[train_y == -1, 1], 'x') 
>>> plt.plot(x1, -w[0] / w[i] * xi, linestyle='dashed') 
>>> plt.show() 
500 趟 
x 2 
x x 小 天 
人 
400 十 区 。。 
pa 全 
Pd @ 
300 十 @ 
x ,2 op 
200 十 x 22 浊 
x ey 
100 十 区 。 
Eg . 
"+ | > 
0 100 200 300 400 500 
图 5-8 
h 分 类 效果 真 不 错 啊 。 这 次 没有 对 训练 数据 进行 标准 化 ， 居 然 也 可 
器 胡 ”以 执行 。 


是 的 。 一 开始 我 就 说 过 ， 一般 来 说 进行 标准 化 效果 会 更 好 ,但 不 
标准 化 有 时 也 可 以 执行 。 这 次 就 是 一 个 例子 。 


| 5.3.3 | 验证 


全 那 我 随便 拿 几 个 不 同 大 小 的 图 像 让 模型 分 类 看 看 。 
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= 在 Python 交互 式 环境 中 执行 ( 示例 代码 : 5-3-5 ) 


网 


像 


>>> # 200 x 100 的 横向 


>>> f([200，100]) 


1 


网 | 


像 


>>> # 100 x 200 的 纵向 


>>> f([100，200]) 


= 业 


我 把 你 写 的 感知 机 程序 总 结 了 一 下 。 


a 示例 文件 : classification1_perceptron.py 


import numpy as np 


import matplotlib.pyplot as plt 


# 读 入 训练 数 


HO 


train = np.loadtxt('imagesi.csv', delimiter=',', skiprows=1) 


train_x = train[:,0:2] 


train_y = train[:,2] 


# 权重 初始 化 


W = np.random.rand(2) 


# 判别 函数 


def f(x): 


if np.dot(w, x) >= 0: 


return 1 


else: 


return -1 


# 更 新 次 数 


count = 0 


Wu 


# 学 习 权 本 


for _ in range(epoch) : 


for x, y in zip(train x, train_y): 


if f(x) != y: 


W=W+y*Xx 


# 输出 日 志 


count += 1 


print(' 第 个 次 : w= {}'.format(count, Ww)) 


# 绘图 确认 


xl = np.arange(0, 500) 


plt.plot(train_x[train_y == 


1, 0], train _x[train_y = 


ll 
Es 
je 
[i 
[© 
i 


plt.plot(train_x[train_y == -1, 0], train x[train_y = 


ll 

1 
和 
让 
[ 
\ 


plt.plot(x1, -w[0] / w[1] * x1, linestyle='dashed') 


plt.show() 


那么 模型 也 可 以 处 型 


我 们 刚才 试验 的 都 是 二 名 


一 


NS 


售 数 据 ， 如 果 增 加 训练 数据 和 w 的 维度 ， 


全 


以 上 的 数据 。 不 过 模型 依然 只 能 解决 线 


性 可 分 的 问题 。 
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区 3 感知 机 还 插 简 单 的 。 


| 5.4 | 分 类 一 一 逻辑 回归 


| 5.4.1 | 确认 训练 数据 


1 下 一 个 要 做 的 是 逻辑 回归 ! 训练 数据 就 先 用 实现 感知 机 时 用 过 的 
己 数据 吧 ? 


那个 数据 中 的 zz 和 za 可 以 不 变 ， 但 y 需要 变 一 下 。 因 为 在 逻辑 
回归 中 ， 我 们 需要 把 横向 分 配 为 1、 纵向 分 配 为 0。 


3 哦 ， 对 哦 。 那 我 修改 一 下 训练 数据 中 的 值 。 


nm iMages2.csv 


x1,x2,y 


153,432,0 


220,262,0 


118,214,0 


474,384,1 


485,411,1 


233,430,0 


396,361,1 


484,349,1 


429,259,1 


澡 
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286 ,220,1 


399 ,433,0 


403,340 ,1 


252,34,1 


497,472,1 


379,416,0 


76,163,0 


263,112,1 


26,193,0 


61,473,0 


420,253,1 


| 5.4.2 | 逻辑 回归 的 实现 


首先 初始 化 参数 ， 人 然后 对 训练 数据 标准 化 吧 。zi 和 zs 要 分 别 标准 
化 。 男 外 不 要 忘 了 加 一 个 zo 列 。 


(3 知道 了 。 对 zi 和 zs 分 别 取 平 均值 和 标准 差 ， 进 行 标准 化 (图 5-9 )。 


a 在 Python 交互 式 环境 中 执行 ( 示例 代码 : 5-4-1 ) 


>>> import numpy as np 


>>> import matplotlib.pyplot as plt 


>>> 
>>> # 读 入 训练 数据 
>>> train = np.loadtxt('images2.csv', delimiter=',', skiprows=1) 


>>> train_ x = train[:,0:2] 


>>> train_y = train[:,2] 


>>> 
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>>> # 初始 化 参 老 


>>> theta = np.random.rand(3) 


>>> 


>>> # 标准 化 


>>> mu = train_x.mean(axis=0) 


>>> sigma = train_x.std(axis=0) 


>>> def standardize(x): 


return (x - mu) / sigma 


>>> train_z = standardize(train_x) 


>>> 


>>> # 增加 x0 


>>> def to_matrix(x): 


x0 = np.ones([x.shape[0] , 1]) 


return np.hstack([x0, x]) 


>>> X = to_matrix(train_z) 


>>> 


>>> # 将 标准 化 后 的 训练 数据 画 成 


哎 


>>> plt.plot (train_z[train_y == 1, 0], train _z[train_y == 1, 


>>> plt.plot (train_z[train_y == 0, 0], train _z[train_y == 0， 


>>> plt.show() 


LO X * x* & 


四 
0.0 十 @ 


-1.0+* 


一 2.0 十 


图 5-9 


(从 二 条 的 记 度 变 了 ,说 明 标 准 化 成 功 了 。 


下 一 个 要 做 的 是 预测 函数 的 实现 。 还 记得 在 表达 式 3.5.2 见 过 的 
sigmoid 函数 吗 ? 


1 
1 十 exp( 一 0TZz) (5.4.1) 


Jo(z) = 
从) 当然， 这 就 可 以 了 吧 ? 


= 在 Python 交互 式 环境 中 执行 ( 示例 代码 : 5-4-2 ) 


>>> # sigmoid 国 数 


>>> def f(x): 


return 1 / (1 + np.exp(-np.dot(x, theta))) 


到 此 事前 准备 就 结束 了 ， 接 下 来 是 参数 更 新 部 分 的 实现 。 学 习 逮 
辑 回归 的 时 候 ， 我 们 进行 了 定义 逻辑 回归 的 似 然 函数 ， 对 对 数 似 
然 函 数 进 行 微分 等 一 系列 操作 ， 然 后 最 终 得 到 的 参数 更 新 表达 式 
3.7.18 是 这 样 的 。 


i=1 (5.4.2) 


与 回归 时 一 样 ,将 fo(z 中 ) 一 yt 当 作 向 量 来 处 理 ， 将 它 与 训练 数 
据 的 和 矩阵 相 乘 就 行 了 吧 ? 


没 错 。 我 们 把 重复 次 数 设置 得 稍微 多 一 点 ， 比 如 5000 次 左右 。 在 
实际 问题 中 和 We 反复 尝试 来 设置 这 个 值 ， 即 通过 确认 学 习 中 
的 精度 来 确定 重 少 次 才 足 够 好 。 
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3 好 的 ， 我 实现 一 下 试 试 。 


a 在 Python 交互 式 环境 中 执行 ( 示例 代码 : 5-4-3 ) 


>>> # 学 习 率 


>>> ETA = 1e-3 


>>> 


>>> # 重复 次 数 


>>> epoch = 5000 


>>> 


>>> for _ in range(epoch): 


theta = theta - ETA * np.dot(f(X) - train_y, X) 


(EY my 


[ 那 我们 用 图 来 确认 一 下 结果 吧 。 之 前 说 过 在 逻辑 回归 中 , grz =0 
从 2 下 。 这 条 直线 是 决策 边界 。 


全 也 就 是 说 ，97z > 0 时 图 像 是 横向 的 ，97z < 0 时 图 像 是 纵向 的 。 


对 , 将 96Iz = 0 变形 并 加 以 整理 ， 得 到 这 样 的 表达 式 。 你 把 它 用 
图 来 展示 一 下 看 看 。 
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OILz 一 OQoxo 十 O17T1 十 0272 
一 00 十 OZ1 十 bzoz 一 0 


00 十 OZ1 
9 
0 (5.4.3) 
3 它 的 代码 与 实现 感知 机 时 的 代码 差不多 (图 5-10 )。 
= 在 Python 交互 式 环境 中 执行 (示例 代码 : 5-4-4 ) 
>>> x0 = np.linspace(-2, 2, 100) 
>>> 
>>> plt.plot (train_z[train_y == 1, 0], train z[train_y == 1, 1], 'o') 
>>> plt.plot(train _z[train_y == 0, 0], train_z[train_y == 0, 1], 'x') 
>>> plt.plot (x0, -(theta[0] + theta[1] * x0) / theta[2] ， 
linestyle='dashed') 
>>> plt.show() 
pi a 
,7 
a x x 2 
Bp 0 
0 十 2% 
X -~ ° 
= x < 尖 
XW 
—2 区 时 
a @ 
一 3 了 上 上 上 上 | | | | 
| T T T T T T 1 rw 
一 2.0 一 1.5 一 1.0 一 0.5 00 5 10 15 2,0 
图 5-10 
人 和 现在 通过 风 辑 回归 也 能 很 好 地 分 类 了 ! 
-WA 中 
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| 5.4.3 | 验证 


接 下 来 我 们 尝试 对 任意 图 像 进 行 分 类 。 不 要 忘 了 对 预测 数据 进行 
标准 化 哦 。 


3 我 试 试看 。 


= 在 Python 交互 式 环境 中 执行 ( 示例 代码 : 5-4-5 ) 


>>> f(to_matrix(standardize([ 
[200,100] ，# 200 x 100 的 横向 
[100,200] # 100 x 200 的 纵向 

Py 

array([ 0.91740319, 0.02955752]) 


网 | 网 
Ey 


这 个 结果 是 怎么 回 事 呀 ? 


jJo(z) 返 回 的 是 z 为 横向 的 概率 。 


哦 哦 ， 对 啊 。 所 以 前 面 200 x 100 的 图 像 对 应 的 值 0.917 403 19 意 
味 着 图 像 是 横向 的 概率 为 91.7%， 而 100 x 200 的 图 像 对 应 的 值 
0.029 557 52 意味 着 图 像 是 纵向 的 概率 为 2.9%。 


没 错 。 直 接 看 概率 可 能 不 够 直观 ， 我 们 可 以 确定 一 个 效 值 ， 然 后 
定义 一 个 根据 阔 值 返回 1 或 0 的 函数 。 


a 在 Python 交互 式 环境 中 执行 ( 示例 代码 : 5-4-6 ) 


>>> def classify(x): 


return (f(x) >= 0.5).astype(np.int) 


>>> classify(to_matrix(standardize([ 


[200,100] ，# 200 x 100 的 横向 图 像 
[100,200] “# 100 x 200 的 纵向 图 像 让 
vary, YY 
array([1, 0]) 
识 
DN 
十 
1/ 这 样 确实 更 容易 理解 。200 x 100 被 分 类 为 横向 ， 而 100 x 200 被 分 
os - 类 为 纵向 了 。 
CN 
项 


那 我 和 之 前 一 样 ， 把 你 写 的 代码 汇总 起 来 。 


a 示例 文件 : classification2_logistic_regression.py 下 
二 


import numpy as np 


import matplotlib.pyplot as plt 


# 读 入 训练 数据 


train = np.loadtxt('images2.csv', delimiter=',', skiprows=1) 


train_x = train[:,0:2] 


train_y = train[: ,2] 


# 参数 初始 化 


theta = np.random.rand(3) 


# 标准 化 


mu = train_x.mean(axis=0) 


sigma = train_x.std(axis=0) 
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def standardize(x): 


return (x - mu) / sigma 


train_z = standardize(train_x) 


# 增加 x0 


def to_matrix(x): 


x0 = np.ones([x.shape[0] , 1]) 


return np.hstack([x0, x]) 


X = to matrix(train_z) 


# sigmoid 国 数 


def f(x): 


return 1 / (1 + np.exp(-np.dot(x, theta))) 


# 分 类 函数 


def classify(x): 


return (f(x) >= 0.5).astype(np.int) 


for _ in range(epoch): 


theta = theta - ETA * np.dot(f(X) - train_y, X) 


# 日 志 输 出 


count += 1 


print(' 第 人 次 : theta = {}'.format(count, theta)) 


网 


# 绘图 确认 


X0 = np.linspace(-2, 2,100) 


plt.plot(train_z[train_y == 1，0] ，train_z[train_y == 1, 1], 'o') 


plt.plot(train_z[train_y == 0, 0], train_z[train_y == 0, 1], 'x') 


plt.plot (x0, -(theta[0] + theta[1] * x0) / theta[2], linestyle='dashed') 


plt.show() 


再 试 一 下 线性 不 可 分 问题 怎么 样 ? 


咽 ， 我 要 试 ! 


] 这 样 的 数据 吧 。 


ma data3.csv 


Xx1,x2,y 


0.54508775,2.34541183,0 


0.32769134,13.43066561,0 


4.42748117,14.74150395,0 


2.98189041,-1.81818172,1 


4.02286274,8.90695686,1 
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2.26722613,-6.61287392 ,1 


-2.66447221,5.05453871 ,1 


-1.03482441 ,-1.95643469 ,1 


4.06331548 ,1.70892541 ,1 


2.89053966 ,6.07174283 ,0 


2.26929206 ,10.59789814,0 


4.68096051,13.01153161 ,1 


1.27884366 ,-9.83826738 ,1 


-0.1485496 ,12.99605136 ,0 


-0.65113893,10.59417745 ,0 


3.69145079 ,3.25209182 ,1 


-0.63429623 ,11.6135625 ,0 


0.17589959,5.84139826 ,0 


0.98204409 ,-9.41271559 ,1 


-0.11094911,6.27900499 ,0 


标准 做 法 ,将 它们 画 成 图 看 看 ( 图 5-11 )。 


在 Python 交互 式 环境 中 执行 ( 示例 代码 : 5-4-7 ) 


哇 ， 这 和 之 前 的 数据 不 一 样 ， 有 点 看 不 明白 啊 。 我 完 按 


有 之 前 的 


>>> import numpy as np 


>>> import matplotlib.pyplot as plt 


>>> 
>>> # 读 入 训练 数据 
>>> train = np.loadtxt('data3.csv', delimiter=',', skiprows=1) 


>>> train x = train[:,0:2] 


>>> train_y = train[:,2] 


>>> 
>>> plt.plot (train_x[train_y == 1, 0], train x[train_y == 1, 1], 'o') 
>>> plt.plot (train_x[train_y == 0, 0], train x[train_y == 0, 1], 'x') 


>>> plt.show() 
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图 5-11 
路 
DY 
几 
这 个 数据 看 上 去 确实 不 能 用 一 条 直线 来 分 类 ， 要 用 二 次 函数 吗 ? 
i 类 2 二 上 会 已 作 (N 
是 的 。 在 训练 数据 里 加 上 z? 就 能 很 好 地 分 类 了 。 
(fF 也 就 是 说 要 增加 一 个 03 参数 ， 参 数 总 数 达 到 四 个 了 。 时 
册 


s 在 Python 交互 式 环境 中 执行 ( 示例 代码 : 5-4-8 ) 
>>> # 参数 初始 化 


>>> theta = np.random.rand(4) 


>>> # 标准 化 


>>> mu = train_x.mean(axis=0) 


>>> sigma = train_x.std(axis=0) 


>>> def standardize(x): 


return (x - mu) / sigma 


>>> train_z = standardize(train_x) 


>>> 
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>>> 


# 增加 x0 和 x3 


>>> 


def to_matrix(x): 


x0 


np.ones([x.shape[0], 1]) 


Xx3 = xXx[:,0,np.newaxis] ** 2 


return np.hstack([x0, x, x3]) 


J 


X = to_matrix(train_z) 


那 我 就 把 它们 复制 过 来 好 了 。 


= 在 Python 交互 式 环境 中 执行 ( 示例 代码 : 5-4-9 ) 


sigmoid 函数 和 学 习 的 部 分 与 刚才 完全 一 样 就 行 ， 


可 以 直接 


>>> 


# sigmoid 国 数 


>>> 


def f(x): 


return 1 / (1 + np.exp(-np.dot(x, theta))) 


>>> 


er 


A 


er 


>>> 


ny 


>>> 


>>> 


for _ in range(epoch): 


theta = theta - ETA * np.dot(f(X) - train_y, X) 


没有 发 生 错 误 ， 好 像 执 行 成 功 了 。 那 怎么 把 结果 画 成 图 呢 ? 


对 于 有 四 个 参数 的 7z = 0 可 以 这 样 变形 ， 然 后 按 这 个 公式 画图 = 一 
就 行 了 。 ， 
T | | 1 72 一 
OZ 一 002Z0 T O171 T 027o T 03571 
="06 | O17X1 | 027o | Gar? 三 吃 
2 调 
区 00 十 0171 十 0371 A 
9 三 
0» (5.4.4) 
f 托 证 】 对 哦 ,我 本 来 也 想 导出 表达 式 来 着 … .我 试 试 (图 5 12 )。 
CN 
二 
。 在 Python 交互 式 环境 中 执行 ( 示例 代码 : 5-4-10 ) _ 
>>> x1 = np.linspace(-2, 2, 100) 
>>> x2 = -(theta[0] + theta[1] * xl + theta[3] * xl ** 2) / theta[2] 仆 
>>> 册 
>>> plt.plot (train_z[train_y == 1, 0], train _z[train_y == 1, 1], 'o') 
>>> plt.plot (train_z[train_y == 0, 0], train _z[train_y == 0, 1], 'x') 
>>> plt.plot (x1, x2, linestyle='dashed') 
>>> plt.show() 


知 
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图 5-12 


哇 


在 


好 厉害 。 决 策 边 界 已 经 变 成 曲线 了 。 


和 回归 时 一 样 ， 将 重复 次 数 作为 横 轴 、 精 度 作 为 纵 轴 来 绘图 ， 这 
次 应 该 会 看 到 精度 上 升 的 样子 。 


表达 式 4.2.2 中 我 们 看 到 过 精度 的 计算 方法 ， 是 这 个 表达 式 吗 ? 
TP 二 于 N 
Y FP 
0 (5.4.5) 


就 是 这 个 。 这 个 值 是 被 正确 分 类 的 数据 个 数 占 全 部 个 数 的 比例 。 


好 的 ， 我 来 验证 一 下 (图 5-13 )。 


= 在 Python 交互 式 环境 中 执行 ( 示例 代码 : 5-4-11 ) 


| | | | | 
人 


0 1000 2000 3000 4000 5000 
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>>> # 参数 初始 化 

>>> theta = np.random.rand(4) 

>>> 

>>> # 精度 的 历史 记录 

>>> accuracies = [|] 

>>> 

>>> # 重复 学 习 

>>> for _ in range(epoch): 
theta = theta - ETA * np.dot(f(X) - train_y, X) 
# 计算 现在 的 精度 D 
result = classify(X) == train_y 妇 
accuracy = len(result[result == True]) / len(result) 本 
accuracies .append(accuracy) 

CN 
>>> # 将 精度 画 成 图 ul 
>>> x = np.arange(len(accuracies)) 
>>> 加 
>>> plt.plot (x, accuracies) 
>>> plt.show() ey 


p= 
于 


随 着 次 数 的 增加 ， 精 度 的 确 变 好 了 。 不 过 ， 这 条 线 怎 么 有 棱 有 和 角 的 ? 


这 是 训练 数据 只 有 20 个 的 缘故 。 精 度 值 只 能 为 0.05 的 整数 倍 ， 所 
以 这 条 线 看 起 来 有 棱 有 角 。 


托 训 这 样 呀 ， 不 过 仔细 一 想 确实 是 这 样 。 


蓄 
河 
中 


而 且 从 图 中 可 以 看 出 ， 在 重复 满 5000 次 之 前 ， 经 到 1.0 了 。 
刚才 我 是 随口 说 了 个 5000 次 ， 也 可 以 像 这 样 ， 每 次 学 习 后 都 计算 
精度 ， 当 精度 达到 满意 的 程度 后 就 停止 学 习 。 


9 训 。 一 开 始 你 说 过 根据 精度 来 决定 是 否 停止 ， 说 的 就 是 这 事 儿 Ia? 


| 5.4.5 | 随机 梯度 下 降 法 的 实现 


个 我 们 要 不 要 再 像 回 归 时 所 做 的 那样 ， 试 试 随机 梯度 下 降 法 的 实现 ? 


嗯 ,我 试 试看 。 不 过 要 做 的 也 就 是 把 学 习 部 分 稍稍 修改 一 下 吧 ? 


=。 在 Python 交互 式 环境 中 执行 ( 示例 代码 : 5-4-12 ) 


>>> # 参数 初始 化 


>>> theta = np.random.rand(4) 


>>> 


>>> # 重复 学 习 
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>>> for _ in range(epoch) : 


# 使 用 随机 梯度 下 降 法 更 新 参数 


P = np.random.permutation(X.shape[0]) 


for x, YY in zip(X[p,:], train_ylp]): 


theta = theta - ETA * (f(x) - y) * x 


项 
咽 ， 这 样 就 可 以 了 。 
识 
D 
二 
再 用 图 来 确认 一 下 (图 5-14 )。 
a 在 Python 交互 式 环境 中 执行 ( 示例 代码 : 5-4-13 ) 
>>> x1 = np.linspace(-2, 2, 100) 
>>> x2 = -(theta[0] + theta[1] * xl + theta[3] * xl ** 2) / theta[2] 
>>> , 
和 , wy je Ee 
>>> plt.plot (train_z[train_y == 1, 0], train z[train_y == 1, 1], 'o') 则 
>>> plt.plot (train_z[train_y == 0, 0], train _z[train_y == 0, 1], 'x') 
>>> plt.plot (x1, x2, linestyle='dashed') 
>>> plt.show() 


知 


205 


/ 
/ 
» / 
/ 
x 
1 十 X X x 
\ 区 x 有 
Ne 7 @ 
还 
0 十 。 、、 Xx 2 
~ 
. 
、、、X eg . 
1 十 @ 上 . 
四 
2 二 ee 
+ + t + + + + > 


一 2.0 一 1.5 一 1.0 一 0.5 0.0 0.5 1.0 1.5 2.0 


图 5-14 


人 3 分 类 的 效果 很 不 鱼 | 


现在 你 应 该 也 掌握 分 类 了 。Iris 数据 集 也 可 以 用 在 分 类 上 ， 你 可 以 


| 5.5 | 正则 化 


| 5.5.1 | 确认 训练 数据 


全 对 了 ， 我 还 想 试 试 正则 化 。 


哦 ， 对 哦 。 确 认 一 下 正则 化 的 行为 比较 好 。 


te 咽 。 我 估计 它 的 实现 也 是 稍稍 修改 一 下 学 习 部 分 就 行 了 ， 没 错 吧 ? 


是 的 。 不 过 除了 应 用 正则 化 以 外 ， 如 果 能 通过 比较 过 拟 合 时 图 的 
状态 和 应 用 了 正则 化 后 图 的 状态 ,具体 总 结 出 正则 化 对 模型 施加 
了 什么 样 的 影响 就 更 好 了 。 


1 这 么 说 我 首先 还 得 特意 弄 出 一 个 过 拟 合 的 状态 …… 减 少 训练 数据 、 
增加 训练 次 数 就 行 了 是 吗 


基本 做 法 是 这 样 的 。 对 于 正则 化 ,我 也 试 错 了 好 多 次 才 很 好 地 实 
现 了 可 视 化 ， 所 以 这 次 我 就 一 边 写 一 边 说 明 吧 ， 好 吗 ? 


Ve 哦 蛾 ， 这 样 呀 。 那 边 说 边 写 再 好 不 过 了 ,谢谢 啦 。 


ES | 首先 来 看 一 下 这 样 的 函数 。 
从 J 
g(7) = 0.1(z3 + x + 7) (5.5.1) 


我 们 造 一 些 向 这 个 g(x) 加 入 了 一 点 噪声 的 训练 数据 ， 然 后 将 它们 
画 成 图 (图 5-15 )。 


a 在 Python 交互 式 环境 中 执行 ( 示例 代码 : 5-5-1 ) 


>>> import numpy as np 


>>> import matplotlib.pyplot as plt 


>>> 
>>> # 真正 的 函数 
>>> def g(x): 


return 0.1 * (x ** 3 + X** 2 + XxX) 
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知 


>>> # 随意 准备 一 些 向 真正 的 函数 加 入 了 一 点 噪声 的 训练 数 


HO 


>>> train_x = np.linspace(-2, 2,8) 


>>> train_y = g(train_x) + np.random.randn(train_x.size) * 0.05 


>>> 


>>> # 绘图 确认 


网 


>>> x = np.linspace(-2, 2，100) 


>>> plt.plot(train_x, train_y, 'o') 


>>> plt.plot(x, g(x), linestyle='dashed') 


>>> plt.ylim(-1, 2) 


>>> plt.show() 


0.5 十 


一 0.5 十 


10 十 [一 二 一 | 一 一 一 一 
一 2.0 一 1.5 一 1.0 一 0.5 0.0 0.5 


0 由 


5 


据 。 我 先 准备 了 8 个 数据 。 


CN) 


图 5-15 


虚线 就 是 正确 的 g(z) 的 图 形 ， 圆 点 就 是 加 入 了 一 点 噪声 的 训练 数 


假设 我 们 用 10 次 多 项 式 来 学 习 这 个 训练 数据 。 首 先 编写 从 创建 训 
练 数据 的 矩阵 到 预测 函数 的 定义 为 止 的 代码 。 


= 在 Python 交互 式 环境 中 执行 ( 示例 代码 : 5-5-2 ) 


>>> # 标准 化 


>>> mu = train_x.mean() 


>>> sigma = train_x.std() 


>>> def standardize(x): 


return (x - mu) / sigma 人 


>>> train_z = standardize(train_x) 


>>> 和 
>>> # 创建 训练 数据 的 矩阵 
>>> def to_matrix(x): 
return np.vstack([ 二 
np.ones(x.size), 3 

X， 
X ** 2， 
CN 


直 
时 


Ss 


4 


[ 
x 
关 
‘Ooo A DD 


[| 

关 
关 
人 
oO 


]).T 


>>> X = to_matrix(train_z) 


>>> 

>>> # 参数 初始 化 衬 
>>> theta = np.random.randn(X.shape[1]) 尖 
>>> 


>>> # 预测 函数 = 


>>> def f(x): 


return np.dot (x, theta) 
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到 这 里 为 止 都 没 问 题 吧 ? 


WANN 喝 ， 没 问题 。10 次 多 项 式 ， 这 个 好 厉害 。 包 括 参 数 bo 在 内 ， 
二 有 11 个 参数 了 。 
| 5.5.2 | 不 应 用 正则 化 的 实现 
那 我 们 就 开始 实现 学 习 部 分 吧 。 首 先是 不 应 用 正则 化 的 状态 (图 
5-16 )。7 值 和 学 习 的 结束 条 件 是 根据 我 之 前 多 次 尝试 的 结果 来 决 


定 的 。 


= 在 Python 交互 式 环境 中 执行 ( 示例 代码 : 5-5-3 ) 


标 函 数 


>>> # 


>>> def E(x, y): 


return 0.5 * np.sum((y - f(x)) ** 2) 


>>> # 学 习 率 


>>> ETA = le-4 


>>> 


> 


>>> 


>>> 


| 四 | 
六 
性 
MY 


>>> # 


>>> error = E(X, train_y) 


>>> While diff > 1le-6: 


theta = theta - ETA * np.dot(f(X) - train_y，X) 


current_error = E(X, train_y) 


diff = error - current_error 


error = Urrent error 


>>> # 对 结果 绘图 
>>> z = standardize(x) 
>>> plt.plot (train_z, train_y, 'o0') 
>>> plt.plot(z, f(to_matrix(z))) 
ed 
>>> plt.show() 二 
识 
2.0 舍 
2.0 人 | 
Hi 二 
1.5 十 1 业 
关 
‘ 了 Ce 
下 本 , 
Ly / 
1 / g 
0.5 十 \ 并 
1 \ . J Uy 
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-054。 ~ 二 
+ + + | t | > 
=]5 =10 =08 00 0.5 1.0 1.5 
图 5-16 9 
二 


这 个 图 像 怎么 看 上 去 牌 牌 扭 扭 的 。 


这 就 是 发 生 了 过 拟 合 的 状态 。 由 于 参数 的 初始 值 是 随机 数 ， 所 以 
每 次 执行 时 这 个 图 的 形状 都 不 一 样 。 但 是 ， 从 该 图 中 也 能 看 出 它 
与 g(x) 相差 很 远 。 


知 


如 果 应 用 了 正则 化 ， 这 个 图 就 会 变 好 一 点 吧 ? 


* 大 家 得 到 的 图 5-16~ 图 5-18 有 可 能 与 书 中 印刷 的 图 形 不 同 ， 而 且 每 次 执行 时 形状 都 
会 发 生变 化 。 
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| 5.5.3 | 应 用 了 正则 化 的 实现 


那 我 们 就 应 用 正则 化 来 学 习 看 看 (图 5-17 )。 和 的 值 也 是 根据 我 之 
前 多 次 尝试 的 结果 来 决定 的 。 


= 在 Python 交互 式 环境 中 执行 ( 示例 代码 : 5-5-4 ) 


>>> # 保存 未 正则 化 的 参数 ， 然 后 再 次 参数 初始 化 


>>> thetal = theta 


>>> theta = np.random.randn(X.shape[1]) 


>>> 


>>> # 正则 化 常量 
>>> LAMBDA = 1 


>>> 


>>> # 误差 


>>> diff = 1 


>>> 


复学 习 ( 包含 正则 化 项 ) 


>>> error = E(X, train_y) 


>>> # 


由 


>>> While diff > le-6: 
# 正则 化 项 。 偏 置 项 不 适用 正则 化 ， 所 以 为 0 
reg_term = LAMBDA * np.hstack([0, theta[1:]]) 
# 应 用 正则 化 项 ， 更 新 参数 


theta = theta - ETA * (np.dot(f(X) - train_y, X) + reg_term) 


current_error = E(X, train_y) 


diff = error - current_error 


error = current_error 


>>> # 对 结果 绘 


网 


>>> plt.plot (train_z, train_y, 'o') 


>>> plt.plot(z, f(to_matrix(z))) 


>>> plt.show() 
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贡 
和 训 。 好 厉害， 现在 的 模型 比 刚才 的 更 拟 合 训练 数据 。 
为 了 便于 比较 ， 我 把 未 应 用 和 应 用 了 正则 化 这 两 种 情况 展示 在 一 pe 
张 图 上 了 (图 5-18 )。 虚 线 是 未 应 用 正则 化 的 情况 ， 而 实 线 是 应 用 
了 正则 化 的 情况 。 一 
a 在 Python 交互 式 环境 中 执行 ( 示例 代码 : 5-5-5 ) 
>>> # 保存 应 用 了 正则 化 的 参数 坦 


>>> theta2 = theta 


>>> 


>>> plt.plot(train_z，train_y，'o') 


A 


正则 化 的 结果 


>>> theta = thetal 


>>> # 团 出 未 应 


>>> plt.plot(z, f(to_matrix(z)), linestyle='dashed') 


>>> 
>>> # 画 出 应 用 了 正则 化 的 结果 


>>> theta = theta2 = 


>>> plt.plot(z, f(to_matrix(z))) 


>>> 


>>> plt.show() 
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图 5-18 


正则 化 很 有 效果 嘛 ! 


这 就 是 正则 化 的 实际 效果 了 。 这 下 掌握 了 吧 ? 


咖 ， 必 须 的 。 通 过 实际 执行 代码 来 确认 的 做 法 更 有 助 于 理解 嘛 。 


那 是 ， 百 闻 不 如 一 见 呀 。 


这 样 就 全 部 实现 一 遍 了 。 代 码 实现 比 我 想象 的 简单 多 了 ， 而 且 极 
大 地 加 深 了 理解 ， 真 是 太 好 了 ! 今天 真是 太 感谢 了 。 


最 近 怎 么 样 ? 


多 亏 有 你 ,我 现在 关于 机 带 学 习 的 学 习 进 展 得 很 顺利 。 不 仅 能 清 
晰 地 想象 出 根据 数据 更 新 参数 的 样子 ， 而 且 在 读 到 新 方法 的 解释 
时 也 能 不 费劲 地 理解 它 的 意思 了 。 


那 太 好 了 。 看 来 我 没有 白 教 。 


我 最 近 才 知道 ， 原 来 梯度 下 降 法 有 几 个 亚 种 ， 如 动量 法 、Adagrad、 
Adadelta 和 Adam 等 。 我 正在 学 习 它 们 如 何 优 化 参数 、 每 种 方法 
的 优 缺 点 是 什么 。 


对 的 。 优 化 方法 也 有 很 多 。 


还 有 ， 你 不 是 教 给 我 线性 回归 、 感 知 机 和 人 逻 辑 回 归 了 嘛 ， 我 现在 
也 在 学 习 它 们 之 外 的 算法 。 我 查 了 一 下 ， 发 现 有 随机 森林 、 支 持 
向 量 机 和 朴素 贝 叶 斯 等 许 许 多 多 的 算法 。 想 出 这 些 算 法 的 人 都 好 


你 看 上 去 非常 开心 呀 。 


嗯 ， 开心。 因为 我 学 到 了 新 的 东西 。 其 实 我 还 在 公司 的 一 个 系统 
里 引入 了 机 融 学 习 。 


是 吗 ? 引入 机 器 学 习 做 什么 ? 
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我 们 公司 提供 的 服务 里 ， 


有 人 工 审核 帖子 中 是 否 包 含 色 情 、 暴 力 


或 脏话 等 不 良 内 容 的 服务 。 工 作 量 相当 大 ， 非 常 花 时 间 ， 所 以 我 
尝试 用 机 融 学 习 来 获得 每 个 帖子 中 包含 不 良 内 容 的 概率 。 这 样 就 
帮 到 了 审核 团队 ， 他 们 可 以 按照 概率 从 高 到 低 的 顺序 来 审核 。 


好 厉害 。 这 个 辅助 工具 用 


起 来 效果 不 错 吧 ? 


现在 用 得 很 好 。 我 的 上 司 和 相关 部 门 的 同事 都 对 我 说 了 “谢谢 ”， 


我 好 开心 。 


你 现在 已 经 完全 是 一 名 机 右 学 习 工 程 师 了 嘛 。 我 教 了 你 这 么 多 ， 


你 是 不 是 要 表示 表示 呀 ? 


没 问 题 ! 咱们 去 吃 甜点 吧 ， 当 然 我 请 。 
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Ai 


求 和 符号 、 求 积 符号 


在 表示 求 和 运算 时 可 以 用 求 和 符号 > ( 读 作 “西格玛 ”)。 假 设 现 在 我 们 
要 做 从 1 加 到 100 的 简单 求 和 运算 。 


1 十 2 十 3 十 4 十 … 十 99 十 100 (A.1.1) 


写 100 个 数字 很 麻烦 ， 所 以 这 个 表达 式 中 用 了 省 略 号 , 但 是 如 果 用 求 和 
符号 ， 它 就 可 以 变 得 像 下 面 这 样 简单 。 


i=1 (A.1.2) 


这 个 表达 式 的 意思 是 从 = 1 开始 ， 加 到 100 为 止 。 这 是 明确 地 表明 要 加 
到 100 的 情况 ， 对 于 那些 不 知道 要 加 到 多 少 的 情况 ， 可 以 用 nn 来 表示 。 


pC 
4 一 1 (A.1.3) 
在 正文 中 出 现 过 这 样 的 表达 式 (第 2 章 的 表达 式 2.3.2 )， 那 个 表达 式 中 
用 的 也 是 n。n 的 意思 是 训练 数据 可 能 是 10 个 ， 也 可 能 是 20 个 ， 因 为 现在 还 
不 明确 ， 所 以 先 用 n 来 代 禁 。 像 这 种 还 不 明确 具体 要 加 到 多 少 个 的 情况 ，2, 
也 能 很 好 地 表示 。 
大 家 应 该 知道 ， 正 文中 的 那个 表达 式 如 果 不 使 用 2 符号 ， 就 会 变 成 这 个 
样子 。 


三 区 Ge 一 fo(z™)) 十 《oa 本 jolze)) ee ly fle™)) ) 


(A.1.4) 
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另外 ， 对 集合 也 可 以 使 用 求 和 符号 。 比 如 有 下 面 这 样 的 偶数 集合 。 


G = {2, 4, 6, 8, 10} (A.1.5) 


如 果 要 把 这 个 集合 G 的 所 有 元 素 相 加 ， 表 达 式 可 以 这 样 写 。 


> .9 电 


gEG (A.1.6) 册 


它 的 意思 是 2+4+6+8+10。 虽 然 和 本 章 开 头 的 例子 不 一 样 ， 没 有 指 二 
定 开 始 和 结束 条 件 ， 但 是 请 大 家 记 住 ， 我 们 也 可 以 像 这 样 对 集合 应 用 求 和 符号 。 
另外 ， 表 示 乘 法 运算 的 一 个 很 方便 的 符号 是 求 积 符号 [[ ( 读 作 “ 派 ”)。 IN 


几 
1 是 > 的 乘法 版 本 。 我 们 考虑 一 下 这 样 的 乘法 运算 。 
lx2x3x4:..99 x 100 (A.1.7) 

用 求 积 符号 可 以 将 它 写成 这 样 。 和 
100 加 

[fi 
i=1 (A.1.8) 
小 
几 


与 2 一 样 ， 在 不 知道 要 乘 多 少 个 时 ， 也 可 以 使 用 m。 


nn 
[Ei 路 


i=1 (A.1.9) Un 
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| A.2 


微分 


在 机 融 学 习 领 域 , 有 多 种 解决 最 优化 问题 的 方法 ， 其 中 之 一 就 是 使 用 微 
分 。 除 机 器 学 习 领 域 之 外 ， 微 分 还 被 应 用 于 各 种 各 样 的 场景 ， 是 非常 重要 的 
概念 ， 建 议 大 家 一 定 要 掌握 它 的 基础 知识 。 在 这 里 ， 我 简单 地 介绍 一 下 微分 
的 基础 知识 。 

通过 微分 ， 可 以 得 知 函 数 在 某 个 点 的 斜率 ， 也 可 以 了 解 函 数 在 瞬间 的 变 
化 。 只 这 么 说 可 能 不 太 好 理解 ， 我 们 来 看 一 个 具体 的 例子 。 请 想象 一 下 开车 
行驶 在 大 街 上 的 场景 。 设 横 轴 为 经 过 时 间 、 纵 轴 为 行驶 距离 ,那么 下 面 的 图 
A-l 应 该 可 以 表现 二 者 的 关系 。 


200 m 十 , 三 
信号 灯 为 绿色 时 行驶 


loo 信号灯 为 红色 时 停车 


100 m 1 


50m 1 


| 


T 
10s 20s 30s 40s ”时 间 


从 图 中 可 以 看 出 ,车 辆 在 40 s 内 大 约 行驶 了 120 m， 所 以 用 下 述 表 达 式 
可 以 很 快 地 计算 出 这 一 期 间 的 行驶 速度 。 


120 Im 
40s | SS (A.2.1) 


不 过 这 是 平均 速度 ， 车 辆 并 没有 一 直 保 持 3 m/s 的 速度 。 从 图 中 也 可 以 
看 出 ， 车 辆 在 刚 发 动 时 速度 较 慢 ， 缓 缓 前 进 ， 而 在 因 红 灯 而 停止 时 速度 变 为 
0， 完 全 不 动 了 。 就 像 这 样 ， 一 般 来 说 各 个 时 间 点 的 瞬时 速度 都 取 值 不 同 。 
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刚才 我 们 计算 了 40 s 内 的 速度 ， 为 了 求 出 “瞬间 的 变化 量 ”， 我 们 来 渐渐 
缩小 时 间 的 间隔 。 看 一 下 图 A-2 中 10s 到 20s 的 情况 。 这 一 期 间 车 辆 跑 了 大 
约 60m， 所 以 可 以 这 样 求 出 它 的 速度 。 


六 
Ey 


200m 十 


l150m 十 


100 m 十 


50m = 


图 A-2 


60 m 
a 一 6 m/s (A.2.2) 
这 与 求 某 个 区 间 内 图 形 的 斜率 是 一 回 事 。 使 用 同样 的 做 法 ， 接 着 求 10 s 
和 11s 之 间 的 斜率 ， 进 而 求 10.0s 和 10.1s 之 间 的 斜率 。 逐 渐 缩 小 时 间 的 间 
隔 ， 最 终 就 可 以 得 出 10 s 那 一 瞬间 的 斜率 ， 也 就 是 速度 。 像 这 样 缩小 间隔 求 
斜率 的 方法 正 是 微分 。 
为 了 求 得 这 种 “瞬间 的 变化 量 "， 我 们 设 函 数 为 f(z)、 为 微小 的 数 ， 屠 


dz B30 h (A.2.3) 


兴 世 称 为 微分 运算 符 ， 在 表示 f(x) 的 微分 时 可 以 写作 世人 或 是 jz)。 
此 外 ， 同 样 用 于 表示 微分 的 符号 还 有 撤 (“ )，jJ(z) 的 微分 也 可 以 表示 为 
j(z)。 用 哪 一 种 写法 都 没有 问题 ， 本 书 统一 使 用 微分 运算 符 名 的 写法 。 
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用 字母 来 描述 可 能 会 让 大 家 感到 突然 变 难 了 ， 所 以 我 们 代入 具体 的 数字 
来 看 看 ， 这 样 有 助 于 理解 。 比 如 ， 考 虑 一 下 刚才 那个 计算 10.0s 和 10.1s 之 
间 的 斜率 的 例子 。 在 那 种 情况 下 z = 10、h = 0.1。 假 设 车 辆 在 10.0 s 那个 时 
间 点 行驶 了 40.0m, 在 10.1s 的 时 间 点 行驶 了 40.6 m， 那 么 可 以 进行 如 下 
计算 。 


f(10+0D) -110) -406-4 和 6 (A.2.4) 
0.1 0.1 


这 里 的 6 就 是 斜率 ， 在 这 个 例子 中 它 表 示 速 度 。 本 来 h 应当 无 限 接近 
0， 所 以 要 用 比 0.1 小 得 非常 多 的 值 来 计算 ， 但 这 里 只 是 一 个 例子 ， 姑 且 就 用 
h=0.1 To 

通过 计算 这 样 的 表达 式 ， 可 以 求 出 函数 f(z) 在 点 z 的 斜率 ， 也 就 是 说 可 
以 微分 。 实 际 上 ， 直 接 用 这 个 表达 式 也 不 太 容 易 计 算 , 但 微分 有 一 些 很 有 用 
的 、 值 得 我 们 去 记 住 的 特性 。 这 里 就 介绍 一 些 在 本 书 中 会 用 到 的 特性 。 
第 一 个 特性 是 当 f(z) = xz” 时 ， 对 它 进行 微分 可 以 得 到 以 下 表达 式 。 


(A.2.5) 


第 二 个 特性 是 若 有 函数 f(z) 和 g(x)， 以 及 常数 a， 那 么 下 述 微 分 表达 式 
成 立 。 它 们 体现 出 来 的 特性 被 称 为 线性 。 


d d 
FF) + 9(7)) = f(T) + 9(7) 
d d 
F707)) = of (7) ee 
第 三 个 特性 是 与 x 无 关 的 常数 a 的 微分 为 0。 
d 
Be (A.2.7) 
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※ 这 些 特性 都 可 以 从 使 用 了 hh 的 微分 的 定义 实际 地 推导 出 来 。 本 书 省 略 
了 推导 过 程 。 如 果 大 家 有 兴趣 ， 请 查找 相关 资料 ， 或 者 亲自 对 表达 式 
变形 ， 挑 战 一 下 推导 的 过 程 。 


通过 组 合 这 些 特性 ， 即 便 是 多 项 式 也 可 以 简单 地 进行 微分 。 下 面 来 看 一 
些 例子 。 


5=0... 使 用 A.2.7 
人 


2Z3 一 37z2 .……， 使 用 A.2.5 
De 使 用 A.2.5 


d d | 
10z4 = 10— zx = 10. 4x3 = 40z3 ……， 使 用 A.2.6 和 A.2.5 
dz dz 


d d 5 d , 
元 人 十 z5) = 二 7 十 元 天 一 5z4 十 675 ee 使 用 A.2.6 和 A.2.5 


(A.2.8) 


男 外 ,含有 求 和 符号 的 表达 式 的 微分 在 本 书 中 也 多 次 出 现 。 对 这 种 表达 
式微 分 时 ， 可 以 像 下 面 这 样 交换 求 和 符号 和 微分 运算 符 的 顺序 。 


i=0 i=0 (A.2.9) 


也 就 是 说 ， 把 全 部 数据 加 起 来 之 后 再 微分 和 把 微分 结果 加 起 来 是 一 样 的 。 
这 是 利用 表达 式 A.2.6 的 第 一 个 特性 就 能 推导 出 来 的 结果 。 如 果 读 者 有 兴趣 ， 
不 妨 在 此 稍 作 停留 深入 思考 一 下 。 

本 书 中 的 大 多 数 微分 利用 了 表达 式 A.2.8 和 A.2.9 的 特性 ， 所 以 只 要 记 住 
这 些 就 足够 了 。 
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| A.3 | 偏 微分 


前 面 我 们 看 到 的 函数 f(z) 是 只 有 一 个 变量 x 的 单 变量 函数 ， 不 过 在 实际 
工作 中 还 存在 下 面 这 种 变量 多 于 两 个 的 多 变量 函数 。 


9(Z1)Z2) | 二 1 十 人 2 十 … 十 2? (A.3.1) 


在 机 器 学 习 的 最 优化 问题 中 ， 有 和 多少 参数 就 有 多 少 变量 ， 所 以 目标 函数 
正 是 这 样 的 多 变量 函数 。 前 面 我 们 学 习 了 使 用 微分 ， 沿 着 切线 的 方向 一 点 点 
移动 参数 的 思路 ( 参见 2.3.1 节 )， 但 是 对 于 参数 有 多 个 的 情况 ， 每 个 参数 的 
切线 都 不 同 ， 移 动 方向 也 不 同 。 

所 以 对 多 变量 函数 微分 时 ,我 们 只 需 关 注 要 微分 的 变量 ， 把 其 他 变量 都 
当 作 常数 来 处 理 。 这 种 微分 的 方法 就 称 为 偏 微分 。 

下 面 我 们 通过 具体 的 例子 来 加 深 对 它 的 理解 。 由 于 包含 三 个 以 上 变量 的 
函数 不 容易 画 成 图 ， 所 以 这 里 考虑 有 两 个 变量 的 函数 的 情况 (图 A-3 )。 


h(xz1, Za) 一 23 让 2 (A.3.2) 


图 A-3 
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日 
古 Xl1、 


2Z1 的 仿 
为 常数 来 处 理 ， 换 言 之 就 是 把 变 


/就 会 变 成 只 有 zi 一 个 变 


于 有 两 个 变量 
右边 向 内 延 1 人 


微分 。 刚 才 介 


， 所 以 需要 在 三 维 空间 内 画图 。 图 中 左边 向 内 延伸 的 轴 
的 轴 是 z2。， 高 为 h(z1,z2) 的 值 。 接 下 来 求 这 个 函数 hh 对 
绍 偏 微 分 时 说 过 ,除了 关注 的 变量 以 外 ， 其 他 变量 都 作 


区 量 的 值 固 定 。 比 如 把 zz 固定 为 za = 1， 这 样 
量 的 函数 (图 A-4 )。 


h(x1, x2) 一 24 十 13 (A.3.3) 

十 10.0 

xd 二 7.5 
5.0 
ee 一 | 一 2:5 

加 | 太太 0.0 

一 2.5 

一 5.0 


图 A-4 


尽管 图 依然 在 三 维 空间 内 ， 但 它 看 上 去 却 是 简单 的 二 次 函数 了 。 由 于 党 
数 的 微分 都 是 0， 所 以 h 对 zi 进行 偏 微分 的 结果 是 下 面 这 样 的 。 


全 = 
Oxi gy) 20 (A.3.4) 


男 外 要 说 明 的 是 ， 虽然 在 偏 微分 时 微分 的 运算 符 由 d 变 为 了 9, 但 是 二 
者 含义 是 相同 的 。 接 下 来 ,我 们 基于 同样 的 思路 ， 考 虑 一 下 h 对 za 的 偏 微 分 。 
比如 将 zx 固定 为 zi = 1， 那 么 将 成 为 只 有 x2 一 个 变量 的 函数 (图 A-5 )。 


(Zi Za) 一 1 十 2 (A.3.5) 
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图 A-5 


这 次 h 变 为 简单 的 三 次 函数 了 。 与 对 zi1 偏 微分 时 的 做 法 相同 ， 这 次 h 对 
Z2 偏 微分 的 结果 如 下 所 示 。 


Be Za2) = 372 (A.3.6) 

像 这 样 只 关注 要 微分 的 变量 ， 将 其 他 变量 全 部 作为 常数 来 处 理 ， 我 们 就 
可 以 知道 在 这 个 变量 下 函数 的 斜率 是 多 少 。 考 虑 到 可 视 化 问题 ， 这 次 我 们 用 
ena 但 不 管 变量 增加 到 多 少 ， 这 个 方法 都 是 适 
用 的 。 
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| A.4 | 复合 函数 


我 们 来 考虑 下 面 这 两 个 函数 f(x) 和 g(z)。 


向 z 代入 任意 值 ， 


上 面 我 们 向 xz 代入 


f(z) = 10+2° 
g(7)=3+7 (A.4.1) 
自然 就 会 得 出 相应 的 输出 值 。 
f(1)=10+1*=11 
f(2)= 10+2*=14 
f(3)=10+3*=19 
9(D) =3+1= 
9(2) =3+2= 
g(3)=3+3=6 (A.4.2) 


了 数字 1，2, 3， 不 过 向 z 代入 函数 也 可 以 进行 计算 。 也 就 


是 说 ， 我 们 可 以 实现 下 面 这 样 的 表达 式 。 


f(g(z)) = 10+ 9(7) = 10+ (3+2)° 
g(f(7)) =3+ f(x)=3+(10+2°) (A.4.3) 


它们 分 别 是 f(x) 中 出 现 g(x)， 以 及 g(x) 中 出 现 f(x) 的 形式 。 像 这 样 由 多 个 


函数 组 合 而 成 的 函 


数 称 为 复合 函数 。 在 本 书 中 ， 这 种 复合 函数 的 微分 会 多 次 


出 现 ， 所 以 建议 大 家 熟悉 复合 函数 及 其 微分 方法 。 


比如 复合 函数 


f(g(7x)) 对 zz 求 微分 的 情况 。 直 接 看 这 个 表达 式 不 太 好 理 


解 ， 我们 可 以 像 下 镍 


i 这 样 把 函数 暂时 替换 为 变量 。 


u = g(x) (A.4.4) 
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这 样 一 来 ， 就 可 以 分 步骤 进行 微分 。 


yy 
dr du dz (A.4.5) 


也 就 是 说 ， 把 y 对 ww 微分 的 结果 与 久 4 对 zx 微分 的 结果 相 乘 即 可 。 我 们 实际 微 
分 一 下 试 试 。 


du d - 
一 y 
dz a 
d 
Efe, 三 于 
| 0 (A.4.6) 
每 一 部 分 的 结果 都 算 好 后 ， 剩 下 的 就 是 相 乘 了 。 把 恢复 为 g(x) 就 可 以 得 到 
最 终 想 要 的 微分 结果 。 


yy 
dr du dz 
三 Zt * 1 
= 2g(7) 
= 2(3+2) (A.4.7) 


在 机 器 学 习 领 域 ， 对 复杂 的 函数 进行 微分 的 情况 很 多 ， 这 时 把 函数 当 作 
多 个 简单 函数 组 合 而 成 的 复合 函数 再 进行 微分 ,就 可 以 相对 简单 地 完成 处 
理 。 至 于 如 何 将 函数 分 割 为 简单 函数 ， 大 家 可 能 慢 慢 才能 掌握 ,但 是 记 住 复 
合 函 数 的 微分 这 一 技巧 是 绝对 有 好 处 的 。 
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| A.5 | 向 量 和 和 矩阵 


在 机 器 学 习 领 域 , 为 了 更 高 效 地 处 理 数值 计算 ,要 用 到 向 量 和 和 矩阵 。 对 
于 学 文科 的 人 来 说 ， 也 许 知 道 向 量 ， 但 很 少 有 机 会 接触 到 矩阵 吧 ” 所 以 在 这 
里 ， 我 们 来 了 解 一 下 二 者 的 基础 知识 。 一 


贡 

首先 ， 向 量 是 把 数字 纵向 排列 的 数据 结构 ， 而 矩阵 是 把 数字 纵向 和 横向 
排列 的 数据 结构 。 二 者 分 别 呈 现 为 下 面 这 样 的 形式 。 三 
3 6 3 
a=| 9|1,A=|11 9 a 


= 8 10 (A.5.1) 


人 们 常用 小 写字 母 表示 向 量 、 大 写字 母 表示 算 阵 ， 并 且 都 用 黑体 ， 本 书 也 遵 Cs 
循 了 这 一 习惯 。 另 外 ， 向 量 和 抢 阵 的 元 素 常 带 有 下 标 ， 本 书 中 也 多 次 出 现 这 和 
种 写法 。 _ 


Q1 Q11 Q12 小 
a= |a|, A= | a az 姑 
U3 U31 (432 (A.5.2) 一 


上 面 的 向 量 a 是 纵向 3 个 数字 的 排列 ， 所 以 是 三 维 向 量 。 和 矩阵 4 是 纵向 3 了 
个 、 横 向 2 个 数字 的 排列 ， 所 以 它 就 是 大 小 为 3 x 2 (也 可 以 称 之 为 3 行 2 世 
站 ) 的 矩阵 。 如 果 把 向 量 当 作 只 有 1 列 的 和 矩阵， 那么 a 就 可 以 看 作 3 x 1 的 
矩阵。 本 节 后 面 的 内 容 会 把 向 量 当 作 ? x 1 的 矩阵 进行 说 明 。 
和 矩阵 分 别 支 持 和 、 差 、 积 的 计算 。 假 如 有 以 下 两 个 矩阵 A 和 吾 ， 我 们 来 
分 别 计算 一 下 它们 的 和 、 差 、 积 。 


6 3 2 1 
4= | 中 | (A.5.3) 
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和 与 差 的 计算 并 不 难 ， 只 需 将 各 个 相应 元 素 相 加 或 相 减 即 可 。 


| 8 4 
4+B-|813 Wy | -lm 
| 4 2 
A——B-= 二 二 
be | Ek | en 


积 的 运算 有 些 特殊 ， 所 以 这 里 会 详 纪 


讲解 它 。 计 算 和 矩阵 的 积 时 ， 需 要 将 


左 侧 矩 阵 的 行 与 右 侧 矩阵 的 列 的 元 素 依次 相 乘 ， 然 后 将 结果 加 在 一 起 。 文 字 


上 的 说 明 不 容易 理解 ， 我 们 实际 地 计算 一 遍 。 和 矩阵 的 乘法 是 像 下 面 这 几 张 图 
这 样 计算 的 (图 A-6~ 图 A-9 )。 
x+ ? 
2 2 
图 A-6 
_27 ? 
18 Xit23TILOXI5 ? 
图 A-7 


66 ? 


-| 


图 A-8 


图 A-9 


230 | 附录 | 


最 终 A 和 B 的 积 如 下 所 示 。 


4B-| 


27 一 3 
66 一 22 


(A.5.5) 


和 矩阵 中 相 乘 的 顺序 是 很 重要 的 。 一 般 来 说 ，AB 和 BA 的 结果 是 不 同 的 
(偶尔 会 出 现 结果 相同 的 情况 )。 此 外 ,， 和 矩阵 的 大 小 也 很 重要 。 在 计算 和 矩阵 乘 
积 时 ， 左 侧 和 矩阵 的 列 数 与 右 侧 矩阵 的 行 数 必须 相同 。 由 于 A 和 吾 二 者 都 为 
2 x 2 的 矩阵 ， 所 以 满足 这 个 条 件 。 大 小 不 匹配 的 矩阵 之 间 的 积 未 被 定义 ， 所 
以 下 面 这 种 2 x 2 和 3 x 1 的 矩阵 的 积 无 法 计算 。 


[so] 


最 后 我 们 来 了 解 一 下 转 置 。 这 是 像 下 面 这 样 交 换行 和 列 的 操作 。 本 书 在 
讲解 时 会 在 文字 的 右上 角 加 上 记号 工 来 表示 转 置 。 


(A.5.6) 


2 
| | 
2 
2 1 
9 ” 
汪汪 : 
2 8 (A.5.7) 


在 计算 向 量 的 积 时 ， 经 常会 像 下 面 这 样 将 一 个 向 量 转 置 之 后 再 计算 。 这 
与 向 量 间 内 积 的 计算 是 相同 的 。 


231 


二 | . 退 | (A.5.8) 


这 样 的 例子 会 频繁 出 现 ， 大 家 一 定 要 熟悉 矩阵 的 积 和 转 置 操 作 。 


232 | 附录 | 


| A.6 | 几何 向 量 


在 讲解 回归 的 第 2 章 中 出 现 的 向 量 ， 在 讲解 分 类 的 第 3 章 中 又 出 现 了 。 
在 分 类 中 出 现 的 向 量 的 几何 意义 较 强 ， 而 且 向 量 之 间 的 加 减法 、 内 积 和 法 线 
等 概念 都 出 现 了 。 忘 了 向 量 基础 知识 的 读者 ， 可 以 在 这 里 一 起 来 复习 一 下 向 
量 的 几何 意义 。 在 分 类 那 一 章 我 们 主要 接触 的 是 二 维 向 量 ， 所 以 这 里 讲解 时 
] 到 的 也 全 部 是 二 维 向 量 。 
向 量 拥 有 大 小 和 方向 。 在 高 中 ， 我 们 学 过 像 图 A-10 这 样 用 箭头 来 表示 的 
二 维 疝 量 。 


另外 ,， 辐 量 可 以 写成 下 面 这 样 纵向 排列 的 形式 。 这 样 的 向 量 被 称 为 列 向 
量 。 这 个 在 回归 那 一 章 也 出 现 过 。 


3 2 
大 ,= 
| 1 | 3 (A.6.1) 


如 果 用 几何 语言 表示 向 量 的 加 法 和 减法 ,那么 加 法 是 让 箭头 相连 ， 而 减 
法 是 逆转 向 量 的 方向 之 后 再 让 箭头 相连 ( 图 A-11 )。 


口 | 
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图 A-11 


这 个 计算 在 代数 上 只 是 做 了 向 量 中 各 元 素 的 相 加 和 相 减 而 已 。 
3 2] 「3+21 [5 
| 1 3| |1+3| | 4 
有 | 
|1 3 | i=3| | =2 
既然 向 量 之 间 存 在 和 与 差 ， 那 么 向 量 之 间 的 积 呢 ? 向 量 之 间 的 积 确实 也 
存在 ， 但 是 它 不 像 和 与 差 那样 简单 ， 不 是 元 素 之 间 相 乘 就 行 了 。 关 于 向 量 之 


间 的 积 ， 存 在 称 为 内 积 的 定义 。 内 积 是 向 量 间 定 义 的 一 种 积 运算 ， 对 于 二 维 
向 量 来 说 ， 可 以 用 下 面 的 表达 式 来 计算 。 


(A.6.2) 


a .DB 一 aibl 十 azbo (A.6.3) 


上 一 小 节 在 讲解 表达 式 A.5.8 时 ， 提 到 过 将 一 个 向 量 转 置 之 后 再 计算 积 的 做 
法 与 内 积 的 计算 相同 。 从 这 里 就 可 以 看 出 ， 两 个 表达 式 确实 是 相同 的 。 下 面 
具体 地 计算 一 下 a 和 6b 的 内 积 。 


a:b=3.:2+1:.:3=9 (A.6.4) 


计算 结果 为 9。 像 这 样 ， 计 算 向 量 内 积 之 后 得 到 的 已 经 不 是 向 量 ， 而 是 普通 的 
数字 (大 小 ) 了 。 这 种 普通 数字 有 一 个 稍微 生僻 一 点 的 叫 法 一 一 标量 。 所 以 
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内 积 也 可 以 被 称 为 标量 积 。 另 外 ， 由 于 内 积 的 运算 符号 不 是 乘法 符号 “x”， 
而 是 点 四 ， 所 以 有 时 它 也 被 称 为 点 积 yo 

另外 ， 假 设 向 量 a 和 已 之 间 的 夹 角 为 96， 那 么 内 积 也 可 以 这 样 表示 (图 
A-12 )。 


图 A-12 


a:b=|al:|b|:cos0 (A.6.5) : 


这 里 出 现 的 |a| 表示 向 量 的 长 度 。 假 如 有 向 量 a = (a1,a2)， 那 么 向 量 长 度 可 


以 如 下 定义 。 
a 
a 
la|= ai 十 az (A.6.6) 需 


由 于 这 是 把 向 量 的 元 素 分 别 平方 之 后 再 相 加 而 得 到 的 结果 ， 所 以 必定 为 大 于 
0 的 数 。 这 一 点 很 重要 ， 请 务必 牢记 。 

另外 ，cos 是 三 角 函 数 的 一 种 ， 也 被 称 为 余弦 函数 等 。 这 里 就 不 详细 展开 
介绍 三 角 函 数 了 ， 不 过 回忆 起 cos 函数 的 图 形 就 可 以 很 轻松 地 从 图 形 的 角度 
解释 向 量 内 积 ， 所 以 在 这 里 我 们 先 争 取 做 到 这 一 点 。 设 0 为 横 轴 、cosb 为 纵 
轴 ， 那 么 cos 函数 的 图 形 如 图 A-13 所 示 。 它 在 正文 中 也 出 现 过 。 
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图 A-13 


这 是 一 个 非常 光滑 的 图 形 。 它 的 特点 是 在 0 为 90" 和 270? 时 cosg = 0， 
cosb 的 符号 以 这 两 个 点 为 界限 发 生变 化 。 这 个 特点 在 解释 向 量 的 几何 意义 时 
经 常 使 用 ， 请 牢记 。 

最 后 ， 让 我 们 了 解 一 下 法 线 。 它 在 用 感知 机 寻找 分 类 数据 的 分 界 直线 时 
出 现 过 。 法 线 向 量 指 的 是 与 某 条 直线 相 垂直 的 向 量 (图 A-14 )。 


图 A-14 


假设 图 中 直线 的 表达 式 为 ax 十 by 十 c= 二 0， 那么 这 时 的 法 线 向 量 p 为 
p= (a,b)。 
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| A.7 | 指数 与 对 数 


在 计算 联合 概率 或 似 然 时 ， 人 们 经 常会 采用 取 对 数 的 操作 。 这 个 对 数 到 
底 是 什么 呢 ? 这 里 我 们 来 简单 地 了 解 一 下 。 
首先 ， 在 思考 什么 是 对 数 之 前 ， 我 们 先 来 看 一 下 指数 。 知 道 指 数 的 人 应 
该 很 多 ， 它 附着 在 数字 的 右上 角 ， 表 示 要 求 这 个 数字 的 几 次 方 。 


2Z4 ID (A.7.1) 


指数 具有 以 下 性 质 ， 这 些 性 质 被 称 为 指数 法 则 。 


ab , ac ae+c 
b 
Qa 
ee ae 一 人 
Qc 
b\c be 
(@) a (A.7.2) 


右上 角 的 指数 部 分 是 普通 数字 的 情况 很 常见 ， 而 如 果 指 数 部 分 是 变 
量 ， 那么 此 时 函数 就 成 为 了 指数 函数 ， 其 形式 是 这 样 的 (a > 1 的 情况 ) (图 
A-15 )。 


y=a (A.7.3) 
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图 A-15 


， 它 使 用 log 来 表示 。 


y= log x (A.7.4) 


图 形 是 将 原 函数 先 


道 函 数 指 的 是 某 个 函数 交换 z 和 yy 之 后 的 函数 。 它 的 
顺 时 针 旋 转 90 度 ， 再 左右 翻转 后 的 图 形 。 设 横 轴 为 z、 纵 轴 为 y， 那么 实际 


的 对 数 


函数 的 图 形 就 是 这 样 的 (a > 1 的 情况 ) (图 A-16 )。 


y 1.0 


图 A-16 


虽然 有 些 不 太 容 易 理 解 ， 


表达 式 A.7.4 中 a 的 部 分 被 


上 [e] 


我 们 可 以 把 它 理解 为 a 的 y 次 方 是 z 的 意思 
但 它 正 好 是 刚才 y = a” 中 zz 和 y 交换 后 的 形式 。 


238 | 附录 | 


称 为 底 ， 其 中 以 自然 常数 (用 e 表 示 的 值 为 2.7182... 的 常数 ) 为 底 的 对 数 被 
称 为 自然 对 数 。 在 自然 对 数 中 常常 会 像 下 面 这 样 省 略 底 ， 将 对 数 简单 地 写 为 
log 或 者 In 的 形式 。 


y=log.r=logr=ln7 (A.7.5) 


对 数 函 数 具 有 以 下 性 质 ， 这 些 性 质 都 很 党 用， 建议 大 家 记 住 它们 。 


loge=1 

logab = loga+logb 
2 
b 
loga" = bloga (A.7.6) 


log— = loga— logb 


※ 对 数 函 数 的 性 质 可 以 使 用 指数 法 则 进行 推导 。 本 书 省 略 了 推导 过 程 ， 如 
果 大 家 有 兴趣 ， 请 查找 相关 资料 ， 或 者 亲自 对 表达 式 变 形 ， 挑 战 一 下 推 
导 的 过 程 。 


此 外 对 数 函 数 的 微分 也 是 很 常见 的 ， 这 里 也 来 介绍 一 下 。 底 为 a 的 对 数 
函数 的 微分 如 下 所 示 。 


1 


log, x = 一 一 一 
zloga (A.7.7) 


dz 


尤其 是 底 为 e 的 自然 对 数 具 有 loge = 1 的 特点 ， 其 微分 结果 如 下 所 示 ， 
非常 简洁 。 建 议 大 家 先 记 住 这 个 表达 式 。 


1 
——log, X=C— 
yh 


dz (A.7.8) 
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※ 对 数 的 微分 也 可 以 使 用 微分 的 定义 来 推导 。 与 对 数 的 性 质 一样 ， 本 书 省 
略 了 它 的 推导 过 程 ， 如 果 大 家 有 兴趣 ， 请 挑战 一 下 推导 的 过 程 。 
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| A.8 | Python 环境 搭建 


Python 是 众多 编程 语言 中 的 一 种 ， 是 全 世界 所 有 人 都 可 以 免费 使 用 的 开 = 一 

源 软 件 。 它 具有 简单 的 结构 ， 用 它 编写 的 代码 无 须 编译 ， 可 以 立即 执行 。 由 

于 这 些 方 便 简 单 的 特性 ，Python 非常 受 初学 者 的 喜爱 。 一 
此 外 ，Python 在 数据 科学 和 机 器 学 习 领 域 的 库 尤 其 丰富 ， 它 是 最 适合 这 

些 领域 的 开发 语言 。 不 仅仅 是 初学 者 ， 这 些 领 域 的 专家 也 经 常 使 用 它 。 和 
本 书 实 践 理论 时 ,使 用 的 编程 语言 也 是 Python。 下 面 我 们 就 来 看 一 下 


| 


Python 从 安装 到 应 用 的 步 又 。 
本 书 使 用 的 是 Python 3 系列 的 版 本 。 在 本 书 执笔 时 的 2017 年 8 月 ， 
3.6.2 是 最 新 的 版 本 。MacOS 和 Linux 发 行 版 一 般 会 预 装 Python， 但 是 预 装 
的 版 本 基本 上 是 2 系列 。 建 议 大 家 不 要 使 用 预 装 的 版 本 ， 而 是 另行 安装 3 系 
列 的 版 本 。 pe 
另外 ， 有 些 读 者 使 用 的 是 Windows 操作 系统 。Windows 默认 不 预 装 
Python， 所 以 需要 自己 安装 。 当 然 , 已 经 拥有 了 Python 3 环境 的 读者 可 以 跳 加 
过 这 步 。 
小 
贡 


| A.8.1 | 安装 Python 


对 于 想 要 在 数据 科学 或 机 器 学 习 领域 使 用 Python 的 读者 ,我 推荐 非常 方 吕 
便 的 Anaconda。Anaconda 会 在 安装 Python 的 同时 ， 也 安装 便于 数据 科学 攻 
和 机 器 学 习 开 发 的 库 。 所 以 ， 如 果 想 要 尝试 本 书 中 刊载 的 示例 程序 ， 那 么 在 
安装 后 立即 就 可 以 进入 开发 状态 。 

如 前 所 述 ， 本 书 使 用 的 是 Python 3 系列 ， 所 以 安装 Anaconda 时 也 要 
选择 3 系列 的 。Anaconda 的 安装 程序 可 以 在 Anaconda 的 官网 上 下 载 。 官 
网 上 提供 了 Windows/MacOS/Linux 各 平台 的 安装 程序 。 其 中 Windows 和 
MacOS 的 安装 程序 都 提供 了 GUI 图 形 界面 ， 所 以 大 家 可 以 遵照 界面 向 导 进 
行 安 装 ， 而 在 Linux 上 的 安装 要 从 命令 行 执行 安装 命令 。 

关于 详细 的 安装 方法 ， 大 家 可 查看 下 载 页 面 中 的 安装 文档 。 基 本 上 ， 遵 
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照 界 面向 导 选 择 默认 选项 即 可 完成 安装 。 如 果 安 装 过 程 中 出 现 问题 导致 安装 
不 能 继续 进行 ， 请 参考 安装 文档 页 面 。 


在 环境 变量 PATH 里 增加 Anaconda 的 选项 ,请 


Anaconda 发 行 版 安装 结束 后 ， 为 了 确认 Python 的 版 本 ， 请 在 终端 程序 


或 命令 提示 符 中 输入 “python -version”。 


= 在 终端 程序 或 命令 提示 符 中 输入 ( 示例 代码 : A-8-1 ) 


$ python --version -------- 不 要 输入 “$”， 输 入 该 符号 右 侧 的 部 分 


Python 3.6.1 :: Anaconda 4.4.0 (64-bit) 


Python 和 Anaconda 后 面 的 版 本 数字 会 随 着 安装 版 本 的 不 同 而 不 同 , 但 只 
要 显示 了 类 似 的 结果 ， 就 说 明 环 境 可 以 正常 执行 。 如 果 安 装 已 完成 却 没有 像 
这 样 显示 结果 ， 那么 请 尝试 登 出 再 登录 、 重 新 启动 终端 ， 或 者 重启 计算 机 等 
操作 。 


| A.8.2 | 执行 Python 


Python 的 执行 方法 大 体 上 可 以 分 为 两 种 。 一 种 是 在 对 话 式 的 交互 式 环境 
上 执行 ， 另 一 种 是 执行 在 .py 文件 中 编写 的 内 容 。 本 书 在 讲解 过 程 中 主要 采 
用 了 前 一 种 在 交互 式 环境 上 执行 的 方法 。 

交互 式 环境 也 被 称 为 交互 式 shell 或 者 对 话 模式 ， 人 允许 开发 者 像 在 与 
Python 对 话 一 样 进行 编程 。 在 终端 或 者 命令 提示 符 输 入 “Python” 即 可 局 
动 它 。 
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= 在 终端 程序 或 命令 提示 符 中 输入 ( 示例 代码 : A-8-2 ) 


$ python -------- 不 要 输入 “$ ， 输 入 该 符号 右 侧 的 部 分 


Python 3.6.1 |Anaconda 4.4.0 (64-bit)| (default, May 11 2017，13:09:58) 


[GCC 4.4.7 20120313 (Red Hat 4.4.7-1)] on linux 


Type "help", "copyright", "credits" or "license" for more information. 
Wi 出 现 “>>>” 就 意味 着 进入 了 接受 Python 程序 的 状态 . 
山 
进入 交互 式 环境 之 后 ,一 眼 就 能 看 到 在 行 前 的 “>>>” 记 号 ,我 们 在 这 个 
记号 之 后 输入 Python 程序 。 男 外 ,输入 quit() 可 以 退出 交互 式 环境 。 外 


本 书 出 现 的 Python 源 代 码 中 ,前 面 有 “>>>” 或 者 “…” 的 就 是 在 交互 山 
式 环境 执行 的 代码 。 请 大 家 一 定 要 亲自 启动 交互 式 环境 ,一 边 执 行 源 代码 一 
边 查 看 结果 。 

另外 ,我 从 那些 在 交互 式 环境 中 依次 执行 的 源 代码 中 ， 抽 取 并 汇总 了 真 
正 需要 的 代码 ， 本 书 将 它们 作为 示例 代码 进行 了 公开 。 大 家 可 以 下 载 这 些 代 几 
码 ， 然 后 使 用 Python 执行 并 查看 结果 ， 所 以 请 像 下 面 这 样 ， 在 python 命令 
后 指定 Python 的 文件 名 来 执行 程序 。 而 且 在 执行 之 前 ， 不 要 忘记 移动 到 .py 


文件 所 在 的 目录 。 
项 
a 在 终端 程序 或 命令 提示 符 中 输入 ( 示例 代码 : A-8-3 ) 
$ cd /path/to/downloads -------- 输入 .py 文件 所 在 的 目录 ， 移 动 到 那里 
$ python regression1_linear.Py -------- 执行 | regression1_linear.py | 
项 
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| A.9 | Python 基础 知识 


本 小 节 将 向 没有 用 过 Python 的 读者 介绍 一 下 Python 程序 的 基本 语法 。 
不 过 本 书 不 是 Python 的 入 门 书籍 ， 这 里 只 涉及 最 小 范围 的 内 容 ， 目 的 是 能 够 
让 大 家 理解 在 第 5 章 实 现 的 Python 程序 。 因 此 这 里 不 会 介绍 所 有 的 知识 ， 如 
果 读 者 想 进 一 步 加 深 理解 ， 推 荐 大 家 上 网 查找 资料 或 者 阅读 Python 的 入 门 书 


EE 
目 o 


下 面 我 们 就 一 起 通过 实践 来 学 习 Python 吧 。 首 先 请 在 终端 或 命令 提示 符 
中 输入 Python (参考 附录 A.8 ), 启动 交互 式 环境 。 


| A.9.1 | 数值 与 字符 串 
Python 可 以 处 理 整数 和 浮 点 数 ， 可 以 通过 “+”“-”“*”"“/” 对 它们 进 
行 四 则 运算 。 此 外 ， 还 可 以 通过 % 求 余数 ， 通 过 “*w” 进 行 宪 运 算 。 


a 以 下 全 部 通过 Python 交互 式 环境 执行 ( 示例 代码 : A-9-1 ) 


>>> 0.5 -------- 不 要 输入 “>>> ， 输 入 该 符号 右 侧 的 部 分 。 余 同 。 


30 


>>> 7 / 8 


0.875 


>>> 10 % 9 


1 


>>> 3 ** 3 


27 
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Python 还 支持 指数 记 数 法 ， 写 法 如 下 。 


= 示例 代码 : A-9-2 
>>> # 下 面 这 行 与 “1.0 * 10 的 -3 次 天 ” 的 含义 相同 。 以 # 开始 的 行 是 注释 。 


>>> 1le-3 


0.001 


>>> 


>>> # 下 面 这 行 与 “1.0 * 10 的 3 次 震 ” 的 含义 相同 。 


>>> le3 


1000.0 


这 里 的 代码 中 出 现 了 # 号 ，Python 把 # 之 后 的 代码 视 为 注释 。Python 
会 忽略 注释 ， 所 以 注释 不 会 对 程序 产生 影响 。 对 程序 中 不 易 理 解 的 部 分 的 意 
图 和 背景 等 进行 说 明 时 可 以 使 用 它 。 本 书 在 很 多 示例 代码 中 加 入 了 注释 ， 不 
过 大 家 在 使 用 交互 式 环境 时 一 般 不 需要 输入 注释 。 

另外 ，Python 会 将 文字 用 单 引 号 或 者 双 引 号 围 起 来 表示 字符 串 。 我 们 可 
以 使 用 “+” 和 “*” 运 算 符 进行 字符 串 的 连接 以 及 重复 输出 。 


a 示例 代码 : A-9-3 


>>> 'python' 


'python' 


>>> "python" 


'python' 


>>> 'python' + ' 入门 ' 


'python 入 门 ， 


>>> 'python' * 3 


"Pythonpythonpython' 
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在 使 用 数值 或 字符 串 时 给 它们 起 好 名 称 ， 之 后 就 可 以 通过 名 称 再 次 使 用 
它们 。 这 样 的 结构 称 为 变量 。 可 以 像 下 面 的 代码 一 样 ， 将 数值 或 字符 串 代 入 
到 变量 里 使 用 。 变 量 之 间 的 运算 结果 可 以 再 次 赋值 给 变量 保存 ， 大 家 可 以 在 
需要 的 时 候 利用 这 个 特性 。 


= 示例 代码 : A-9-4 
>>> # 将 数值 赋值 给 变量 ， 求 它们 的 和 


>>> a = 工 
>>> b = 2 
>>> a + b 
3 


>>> # 将 a 与 b 的 和 进一步 赋值 给 变量 < 


>>> C = a+b 


>>> # 利用 变量 重复 输出 字符 串 


>>> d = 'python’ 


>>>d*c 


'pythonpythonpython' 


另外， 变量 的 四 则 运算 和 省 略 写法 如 下 所 示 。 这 些 能 让 程序 看 起 来 简洁 
的 写法 很 常用 ， 请 一 并 记 住 。 


a 示例 代码 : A-9-5 


>>>a=1 


Sy 


>>> # 与 a = a + 2 含义 相同 


>>> a += 2 


>>> # 与 a = a - 1 含义 相同 


>>> # 与 a = a / 3 含义 相同 


>>> a /= 3 


| A.9.3 | 真 假 值 与 比较 运算 符 


Python 中 有 表示 真 假 值 的 值 True 和 False。 


True 表示 真 、False 表示 假 ， 这 两 个 值 也 被 叫 作 布 尔 值 ， 后 面 要 介绍 的 
流程 控制 语法 也 会 用 到 这 两 个 值 ， 所 以 一 定 要 记 住 它们 。 
a 示例 代码 : A-9-6 
>>> # 1 与 1 相等 吗 ? 
>>> 1 == 1 
True 
>>> 
>>> # 1 与 2 相等 吗 ? 
>>> 1 == 2 
False 
像 这 样 比较 两 个 值 之 后 的 结果 是 否 正确 就 由 真 假 值 来 表示 。 
中 出 现 的 “==” 称 为 比较 运算 符 ， 用 于 检查 符号 左 侧 和 右 侧 的 值 是 否 
Python 的 比较 运算 符 包 括 “==” “1=”“>”“>=” “<” “=”， ee 


含义 ,请 一 边 阅 读 注释 一 边 了 解 其 含义 。 
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a 示例 代码 : A-9-7 


>>> # python2 与 python3 不 等 吗 ? 


>>> “Python2' != 'python3' 


True 


>>> # 2 比 3 更 大? 


>>> # 2 大 于 1 吗 ? 


True 

>>> 

>>> # 变量 之 间 也 可 以 比较 
>>> a = 1 工 

>>> b = 2 


>>> # a 比 b 小 吗 ? 


>>> a《“ hb 


>>> # b 小 于 2 吗 ? 


>>> b <= 2 


我 们 还 可 以 对 真 假 值 应 用 and 和 or 运算 符 。 

and 只 有 在 两 个 真 假 值 都 为 True 的 情况 下 ， 结 果 才 为 True。 

or 在 两 个 真 假 值 中 任意 一 个 为 True 的 情况 下 ， 结 果 为 True。 我 们 通过 
例子 来 看 一 看 实际 结果 。 
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= 示例 代码 : A-9-8 


>>> a = 5 


>>> 


>>> # a 比 1 大 , 而 且 a 比 10 小 


>>>1<aanda<10 


True 


>>> 


>>> # a 比 3 大 , 或 者 a 比 1 小 


>>> 3 < ara< 1 


True 


| A.9.4 | 列表 


Python 中 有 一 个 称 为 列表 的 数据 结构 ， 使 用 该 结构 不 仅 能 处 理 一 个 值 ， 
而 且 能 够 统一 处 理 多 个 值 。 有 些 语言 会 称 该 数据 结构 为 数组 。 后 面 介 绍 流程 
控制 时 也 会 用 到 列表 ， 所 以 在 这 里 我 们 来 熟悉 一 下 基本 的 列表 操作 方法 。 


示例 代码 : A-9-9 


>>> # 创建 列表 


> a [L235 :55.0 


>>> # 访问 列表 元 素 
>>> # ( 注意 : 索引 是 从 0 开始 的 ) 


>>> a[0] 


>>> a[1] 


>>> # 在 索引 上 加 入 负 号 ， 可 以 从 后 面 访问 元 素 
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>>> a[-1] 
6 
>>> a[-2] 
5 
>>> 
>>> # 有 一 种 使 用 “:” 的 被 称 为 切片 的 方便 写 ; 
>>> # 获取 指定 范围 的 人 
>>> a[1:3] 
[2，3] 
>>> 
>>> # 获取 从 第 2 个 值 开 始 到 最 后 的 所 有 1 
>33 [E23] 
区 村 556] 
>>> 
>>> # 获取 从 开始 到 第 3 个 值 的 所 有 1 
光世 3 
[Ey 2 i] 
| A.9.5 | 流程 控制 


Python 程序 基本 上 是 按照 书写 顺序 从 上 到 下 执行 的 ， 但 我 们 也 可 以 通过 
接 下 来 要 介绍 的 流程 控制 来 实现 条 件 分 支 和 循环 。 

使 用 流程 控制 时 ， 我 们 以 代码 块 为 单位 编写 代码 。 其 他 编程 语言 多 使 用 
{ … } 或 begin … end 来 表示 代码 块 的 开始 和 结束 ， 而 Python 使 用 缩 进 
来 表示 代码 块 。 虽 然 tab 制 表 符 和 半角 空格 都 可 以 表示 缩 进 ， 但 是 我 建议 大 
家 尽 可 能 避免 使 用 tab 制 表 符 ， 而 是 使 用 4 个 半角 空格 。 与 其 他 语言 相 比 ， 
Python 中 的 缩 进 非 常 重要 ， 缩 进 未 对 齐 会 导致 错误 ， 大 家 要 小 心 。 
首先 ， 我 们 通过 if 语句 使 用 条 件 分 支 。 如 果 在 if 之 后 的 真 假 值 是 True， 
那么 这 句 后 面 的 代码 块 会 被 执行 ， 如 果 是 False， 那 么 Python 解释 器 会 去 看 
下 一 个 elif 的 真 假 值 。 假 如 这 里 也 是 False， 那 么 最 终 else 下 面 的 代码 块 会 
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被 执行 。 我 们 来 实际 地 确认 一 下 。 


= 示例 代码 : A-9-10 


>>> a = 10 
>>> 四 
>>> # 根据 变量 值 能 否 被 3 或 者 5 整除 ， 打 印 不 同 的 消息 
>>> if a % 3 == 0: 研 
print(' 能 被 3 整除 的 数 ') 
. elif a% 5 == 和 
print(' 能 被 5 整除 的 数 ') 让 
D 
. else: 项 
print(' 既 不 能 被 3， 也 不 能 被 5 整除 的 数 ') 
a 在 这 里 按 “Enter” 键 了 
能 被 5 整除 的 数 
CN 
姓 
接 下 来 ,我 们 通过 for 语句 进行 循环 处 理 。 将 列表 传 给 for ，for 就 会 从 三 
列表 中 依次 取出 元 素 ， 并 开始 循环 处 理 。 我 们 来 实际 地 确认 一 下 。 
人 
= 示例 代码 : A-9-11 
3 2 Ee 
>>> 
天 > 小 
>>> # 依次 取出 列表 中 元 素 并 赋值 给 变量 i， 然 后 输出 f Ul 
项 


2 for 1 in as 


print (i) 


ee 在 这 里 按 “Enter” 键 
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此 外 ,还 有 一 种 循环 处 理 的 语法 : while 语句 。 只 要 while 后 面 的 表达 式 
为 True，Python 解释 器 就 会 开始 循环 处 理 。 


a 示例 代码 : A-9-12 


>>>a=1 


>>> 


>>> # 只 要 a 不 大 于 5， 进行 循环 处 理 


>>> while a <= 5: 


print (a) 


a 在 这 里 按 “Enter” 键 


| A.9.6 | 函数 


最 后 我 们 来 学 习 函 数 。 在 Python 中 ， 只 要 把 一 段 处 理 定义 为 函数 ， 之 后 
就 可 以 在 需要 的 时 候 调 用 它 。 我 们 使 用 def 来 定义 函数 ， 在 def 行 下 面 的 代 
码 块 就 是 函数 的 处 理 。 与 流程 控制 一 样 ， 函 数 中 也 用 缩 进 来 表示 代码 块 ， 所 
以 请 注意 缩 进 的 对 齐 。 


a 示例 代码 : A-9-13 


>>> def hello_python(): 


print('Hello Python') 


0 在 这 里 按 “Enter” 键 


>>> hello_python() 


Hello Python 


>>> 


2 


Vv 


# 国 数 也 可 以 接受 参数 并 返 匠 


>>> 


def sum(a, b): 


Teturn a + b 


且 按 “Enter” 键 


在 这 号 


>>> 
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| A10 | NumPy 基 Mi 识 


NumPy 是 面向 数据 科学 的 非常 方便 的 库 。 尤 其 是 NumPy 专用 的 数组 
(被 称 为 ndarray ) 中 有 很 多 方法 ， 非 常 方便 。 在 机 顺 学 习 实 现 的 过 程 中 ， 向 
量 和 和 珑 阵 的 计算 频繁 出 现 ， 使 用 NumPy 的 数组 可 以 提高 处 理 效率 。 

这 里 以 第 5 章 实现 的 源 代 码 中 出 现 的 NumPy 功能 为 中 心 ， 对 其 基础 部 
分 进行 讲解 。NumPy 的 功能 非常 多 ， 这 里 无 法 一 一 介绍 ， 推 荐 有 兴趣 的 读者 
上 网 查找 资料 ， 或 者 阅读 相关 书籍 。 

默认 情况 下 ，NumPy 没有 被 预 置 在 Python 标准 库 里 ， 所 以 需要 先进 行 
安装 。 不 过 ， 如 果 是 通过 附录 A.8 介绍 的 Anaconda 发 行 版 安装 的 Python， 
那么 NumPy 会 被 预 置 在 内 ， 不 需要 另行 安装 。 

如 果 没 有 通过 Anaconda 发 行 版 安装 Python， 那 NumPy 基本 上 不 会 被 
预 置 在 内 ， 需 要 使 用 包 管 理工 具 pip 来 安装 。 


= 在 终端 程序 或 命令 提示 符 中 输入 ( 示例 代码 : A-10-1 ) 


$ pip install numpy 


NumPy 准备 好 之 后 ， 我 们 就 一 起 通过 实践 来 掌握 它 吧 。 首 先 在 终端 程序 
或 命令 提示 符 中 输入 Python， 启 动 交互 式 环境 。 


要 想 能 在 Python 中 使 用 NumPy， 首 先 需要 导入 NumPy。 具 体 方法 是 
j import 语句 ， 像 下 面 这 样 进行 导入 。 


和 


ls 


= 以 下 全 部 在 Python 交互 式 环境 执行 ( 示例 代码 : A-10-2 ) 


>>> import numpy as np 
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一 行 的 意思 是 以 np 这 


一 名 称 读 取 numpy 库 。 ee 个 名 称 就 


可 以 使 用 NumPy 的 功能 。 后 面 的 示例 代码 都 以 已 经 完成 库 的 读 取 为 前 提 


执行 。 


| A.10.2 | 多 维 数组 


NumPy 的 核心 是 表示 多 


已 经 见 过 Python 使用“ 


;yy 


维 数组 的 ndarray。 在 示例 代码 A-9-9 中 ,我们 
这 个 方便 的 切片 写法 ， 而 NumPy 的 多 维 数组 也 


有 几 个 访问 元 素 的 方 


a 示例 代码 : A-10-3 


蝎 写 法 ,下面 以 本 书 用 到 的 写法 为 中 心 予 以 介绍 。 


>>> # 创建 3x3 的 


多 维 数组 ( 矩阵 ) 


>>> a = np.array([[1， 


2 3]， 


[4，5，6] ，[7，8，9]]) 


>>> a 


array([[1, 2, 3], 


[4; 5 6] 


[7 8; "91 


) 


>>> # 访问 第 1 行 全 


第 1 列 


的 元 素 


>>> # (注意 : 索引 


从 0 


开始 ) 


>>>°"a 00] 


>>> # 访问 第 2 行 第 2 列 的 元 素 


| 


>>> # 取出 第 1 列 


> 


array([1, 4, 7]) 


J 
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A 


>>> # 取出 第 


1 行 


> | 


array([l, 2, .31) 


>>> 


>>> # 取出 第 2 列 和 第 3 列 


2 TL:3] 


array([[2，3] ， 


[5, 6], 


[8, 9]]) 


>>> 


>>> # 取出 第 2 行 和 第 3 行 


> .at 3 


array([[4, 5, 6], 


[7, 8, 9]]) 


ba 


| 和 与 


>>> # 取出 第 1 行 ， 并 赋 给 变 


>>> bp = a[0] 


>>> b 


array([1，2，3]) 


>>> 


>>> # 也 可 以 使 用 数组 访问 元 素 


>>> # 依次 取出 数组 b 的 第 3 个 和 第 1 个 元 素 


>>> c = [2，0] 


>>> b[c] 


array([3, 1]) 


此 外 ， 还 可 以 像 下 面 这 样 访问 多 维 数组 的 基本 属性 
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示例 代码 : A-10-4 


>>> # 创建 3x 3 的 多 维 数组 ( 矩阵 ) 


>>> a = np.array([[1，2，3]，[4，5，6]，[7，8，9]]) 


>>> 


>>> # a 的 维度 。 由 于 是 德 阵 ， 所 以 为 二 绢 


>>> # a 的 形状 。 由 于 是 3x 3 矩阵， 所 以 为 (3，3) 


>>> a.shape 


(3; 3) 


>>> # a 的 元 素数 。 由 于 是 3 x 3， 所 以 元 素数 为 9 


>>> a.size 


NumPy 的 多 维 数 组 还 支持 数组 间 的 合并 。 水 平方 向 的 合并 使 
而 垂直 方向 的 合并 使 用 vstack。 


出 | 


a 示例 代码 : A-10-5 


用 hstack， 


>>> # 与 3x1 的 数组 横向 合 


>> gs [LL [C2], ' [3] 


>>> b = [[4], [5], [6]] 


>>> np.hstack([a, b]) 


array([[1，4] ， 


[25. .55 


[3，6]]) 


>>> 


>>> # 与 1x 3 的 数组 纵向 合 


>>> 所 三 [1, 23 3] 
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>>> b = [4, 5, 6] 


>>> np.vstack([a, b]) 


array([[1，2，3] ， 


[4, 5, 6]]) 


通过 NumPy， 还 可 以 像 下 面 这 样 使 用 工 来 获得 转 置 矩 阵 。 


示例 代码 : A-10-6 
>>> # 创建 3x 3 的 多 维 数组 〈 和 矩阵 ) 


>>> a = np.array([[1，2，3]，[4，5，6]，[7，8，9]]) 


>>> a 


array([[1，2，3] ， 


[4，5，6] ， 


[7, 8, 9]]) 


>>> 


>>> # 对 a 转 置 


> 


array([[1，4，7] ， 


[25 :6 Bl; 


[3, 6, 9]]) 


| A.10.3 | 广播 


NumPy 中 有 一 个 功能 用 于 数组 元 素 间 运算 ， 称 为 广播 。 通 常 NumPy 数 
组 之 间 做 运算 时 ,数组 的 形状 必须 一 致 ， 但 是 在 两 个 数组 形状 不 一 致 秃 有 可 
能 调整 为 一 致 时 ， 该 功能 就 会 先 调整 再 进行 运算 。 文 字 的 说 明 可 能 不 容易 理 
解 ， 下 面 通 过 示例 来 演示 这 个 功能 。 


| 附录 | 


a 示例 代码 : A-10-7 
>>> # 创建 3x 3 的 多 维 数组 ( 矩阵 ) 


>>> a = np.array([[1，2，3]，[4，5，6]，[7，8，9]]) 


>>> 一 一 
>>> # 把 a 的 所 有 元 素 加 10 
>>> a + 10 一 
项 
array([[11，12，13] ， 
[14，15，16] ， 
[17, 18, 19]]) 
让 
>>> | 
— 机 
>>> # 把 a 的 所 有 元 素 乘 3 
>>> a*3 ER 
array([[ 3, 6, 9]， 和 
[12，15，18] ， WU 
项 


[21, 24, 27]]) 


这 段 代 码 在 内 部 把 10 或 3 这 样 的 数值 当 作 3 x 3 矩阵 来 处 理 ， 然 后 对 每 加 


小 
个 元 素 进行 运算 (图 A-17 )。 - 
1 2 | 3 10 六 
Ul 
4 5 | 6 下 
7 || 8 | 9 
— > 
2 | 3 3 
4 | 15 | @: | 
7 || 8 | 9 
一 -> 
图 A-17 
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稍微 提 一 句 ， 这 里 的 乘法 运算 不 是 矩阵 的 ， 而 是 每 个 元 素 的 。 这 种 对 每 
个 元 素 进行 的 运 SR 簿 元 素 (element-wise ) 运算 ,和 矩阵 的 乘法 与 逐 元 素 
的 乘法 是 不 同 的 ， 这 一 点 要 注意 。 此 外 ， 还 有 这 样 的 广播 方式 。 


.示例 代码 : A-10-8 
>>> # 分 别 把 a 的 每 一 列 乘 以 2、3、4 


>>> a * [2，3，4] 


array([[ 2, 6，12] ， 


[ 8，15，24] ， 


[14，24，36]]) 


>>> 
>>> # 分 别 把 a 的 每 一 行 乘 以 2、3、4 


>>> a * np.vstack([2, 3, 4]) 


array([[ 2, 4, 6]， 


[12,15 18] 


[28; -32,. .36]]) 


这 段 代码 在 内 部 会 像 下 面 这 样 对 数组 进行 扩展 ， 然 后 对 每 个 元 素 进行 运算 


(图 A-18 )。 

| 3 | 2 1 3||4 
4||5l6|* 
7||8||9 
1 || 2 3 2 
4||5lle|*|s 
7 || 8 9 4 

一 

图 A-18 
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微 博 连 接 


关注 @ 图 灵 教育 每 日 分 享 |T 好 书 


QQ 连接 


加 


灵 读 者 官方 群 [， 218139230 
灵 读 者 官方 群 [[: 164939616 


网 


图 灵 社区 
iTuring.cn 
在 线 出 版 , 电子 书 ,《 码 农 》 杂 志 , 图 灵 访 谈 


我 想 学 机 器 学 习 ， 但 是 我 连 要 学 什么 、 该 怎么 学 都 不 知道 。 
而 且 机 器 学 习 的 书 和 资料 里 经 常会 出 现 数学 表达 式 ， 


那些 表达 式 的 意思 我 也 不 明白 …… 
所 以 凌 用 就 来 找 我 唆 ? 


叹 ， 美 绪 你 数学 很 拿手 吧 ? 
由 你 来 讲解 的 话 我 应 该 能 听 得 懂 。 


机 器 学 习 里 确实 有 很 多 数学 表达 式 。 
不 过 只 要 把 表达 式 拆 开 看 

一 部 分 一 部 分 地 去 理解 ， 也 就 不 难 了 。 
对 了 ， 你 对 机 器 学 习 了 解 多 少 呢 ? 


我 只 听 说 过 它 的 一 些 应 用 场景, 
不 过 我 更 想 具体 了 解 一 下 它 的 实际 应 用 。 


没 问题 。 
机 器 学 习 主 要 的 任务 是 回归 和 分 类 ， 
我 们 就 结合 事例 来 聊 聊 过 两 个 话题 吧 。 


15~53621=1 
川 1 员 


介 :59.00 元 


图 灵 社 区 : iTuring.cn 
分 类 建议 : 计算 机 /计算 机 数学 
人 民 邮 电 出 版 社 网 址 : www.ptpress.com.cn 


